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添加 了 GFDL 许 可 证 ， 正 式 网 络 发 布 。 第 三 部 分 还 很 粗糙 ， 错 误 也 有 不 少 ， 有 待 改 进 。 第 一 部 
分 和 第 二 部 分 已 经 比较 成 熟 ， 第 二 部 分 还 差 三 章 没 写 。 
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全 书 的 章 市 基本 完成 ,但 有 些 章 市 还 很 不 完善 。 












































1. 继续 Hello World 






































































































































































































































































































































































































































































































































































































































































































































































































































































































































1. ASCI 
2. Unicode 
3. 在 Linux C 编 程 中 使 
































书 Unicode 和 和 UTF-8 
























































mentation License Version 1.3, 3 November 2008 











历史 

本 书 改 编 和 包含 了 以 下 两 本 书 的 部 分 章节 ， 这 两 本 书 均 以 GNU Free Documentation License 发 
布 。 

How To Think Like A Computer Scientist: Learning with C++ 


作者 Allen B. Downey。 原 书 由 Green Tea Press 发 行 ， 可 以 
从 httpywww.greenteapress.corm/ 下 载 到 。 


Programming from the Ground Up: An Introduction to Programming using Linux Assembly 
Language 


作者 Jonathan Bartlett. B Bartlett Publishing 发 行 ， 可 以 
从 httpsavannah.nongnu.org/projects/pgubook/ 下 载 到 。 
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这 本 书 有 什么 特点 ?面向 什么 样 的 读者 ? 











本 书 最 初 
。 该 课程 
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A AIAG TERRACE BEACH EDT HA Linux At 程 师 就 业 班 课程 量 身 定做 的 教材 之 
是 为 期 四 个 月 的 全 日 制 职业 培训 ， 要 求学 员 毕 业 时 具备 非常 Solid 的 C 编 程 能 力 ， 能 熟 










































































UE LINU A, 同时 对 计算 机 体系 结构 与 指令 集 、 操 作 系统 原理 和 设备 驱动 程序 都 有 较 深 








专业 有 和 计 
完全 不 相关 
































闻 。 然 而 学 员 入 学 时 的 水 平 是 非常 初级 而 且 参 差 不 齐 的 : 学 历 有 专科 、 本 科 也 有 研究 生 ， 

















算 机 相关 的 也 有 很 不 相关 的 (例如 会 计 专 业 ) ， 以 前 从 事 的 职业 有 和 技术 相关 的 也 有 
的 (例如 HR) ， 年 龄 从 二 十 出 头 到 三 十 五 六 岁 的 都 有 。 这 么 多 背景 完全 不 同 、 基础 



































完全 不 同 、 











思维 去 JECRURERER BASE ATA ART HI SEPR, KARA) tr BAP RUN OT A 












































术 ， 投 号 IT 行 业 ， 这 就 是 职业 教育 的 特点 ， 也 是 我 编 这 本 书 时 需要 考虑 的 主要 问题 。 









































学 习 编程 绝 


不 是 一 件 简单 的 事 ， 尤 其 是 对 于 零 基础 的 初学 着 来 说 。 大 学 的 计算 机 专业 有 四 年 时 间 



























































从 零 基础 开 
计算 机 组 成 


2M, Ate AÍS fe 























始 培养 一 个 人 ， 微 积分 、 线 代 、 随 机 、 离 散 、 组 合 、 目 动机 、 编 译 原理 、 操 作 系统 、 
原理 等 等 一 堆 基 础 课 ， 再 加 上 C/C++、Java、 数据 库 、 网 络 、 软 件 工程 、 计 算 机 图 形 
















































































J^ 
EXE REI 
什么 。 与 之 
个 能 找到 工 


为 什么 我 说 “ 
市 场 规律 决 
业 教 育 给 出 
教 的 基础 课 
里 教 的 每 一 















































专业 课 ， 最 后 培养 出 一 个 能 找到 工作 的 学 生 。 很 遗憾 这 最 后 一 条 很 多 学 校 没 有 做 好 ， 
的 很 多 学 生 就 是 四 年 这 么 学 过 来 的 ， 但 据 我 们 考查 他 们 的 基础 几乎 为 零 ， 我 不 知道 为 
形成 鲜明 对 比 的 是 ， 只 给 我 们 四 个 月 的 时 间 ， 同 样 要 求 从 零 基 础 开始 ， 最 后 培养 出 一 
作 的 学 生 ， 而 且 还 要 保证 他 找到 工作 ， 这 就 是 职业 教育 的 特点 。 


只 给 我 们 四 个 月 的 时 间 ”? 我 们 倒是 想 教 四 年 呢 ， 但 学 时 的 长 短 我 们 做 不 了 主 ， 是 
定 的 。 四 年 的 任务 要 求 四 个 月 做 好 ， 要 怎么 完成 这 样 一 个 几乎 不 可 能 的 任务 ”有 些 职 
的 答案 是 “实用 主义 "， 打 出 了 有 用 就 学 ， 没 有 用 就 不 学 "的 口号 ， 大 肆 贬 低 说 大 学 里 
都 是 过 时 的 、 无 用 的 ， 只 有 他 们 教 的 技术 才 是 实用 的 ， 这 种 炒作 很 不 好 ， 我 认为 大 学 
门 课 都 是 非常 有 用 的 ， 基 础 知识 在 任何 时 候 都 不 会 过 时 ， 倒 是 那些 时 散 的 “实用 技 
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1n 

































































术 ” 有 可 能 很 快 就 过 时 了 。 





四 年 的 任务 
的 缺点 就 是 
道 都 是 干 什 
学 专业 课时 ， 
考 完 试 都 还 
HAT, 3 
课 必须 占 一 
程 之 间 是 相 





















































怎么 才能 用 四 个 月 做 好 ”我 们 给 出 的 答案 是 "优化 "。 现 在 大 学 里 安排 的 课程 体系 最 大 
根本 不 考虑 优化 。 每 个 过 来 人 都 会 有 这 样 的 感觉 : 大 一 大 二 学 了 好 多 数学 课 ， 却 不 知 
么 用 的 ， 为 什么 要 学 。 连 它 有 什么 用 都 不 知道 怎么 能 有 兴趣 学 好 呢 ? 然 后 到 大 三 大 四 

用 到 以 前 的 知识 了 ， uu os AAT LM — FS T , 
给 老师 了 ， 回 头 重新 学 这 时 候 才 发 现 很 多 东西 以 前 根本 没 学 明白 ， 现 在 才 真 的 学 
么 前 两 年 的 时 间 岂 不 是 都 浪费 了 7 AA BARRURA ARRERA, 每 门 
个 学 期 ， 必 须 由 一 个 老师 教 ， 不 同 课程 的 老师 之 间 没 有 任何 沟通 和 衔接 ， 其 实 这 些 课 
互 依赖 的 ， 把 它们 强行 拆 开 是 不 符合 人 的 认 知 规律 的 。 比 如 我 刚 上 大 学 的 时 候 ， 大 一 



















































































































































































上 半 学 期 就 
ALBUS AZ 
专业 都 是 这 

















被 副 着 学 C 语 言 ， 其 实 C 语 言 是 一 门 很 难 的 编程 语言 ， 不 懂 编 译 原 理 、 操 作 系 统 和 计 
吉 构 根本 不 可 能 学 明白 ， 那 半 个 学 期 目 然 就 浪费 挥 了 。 当 时 几乎 所 有 和 学校 的 计算 机 相关 
样 ， 大 一 上 来 就 学 C 语 言 ， 有 的 学 校 更 疯狂 ， 上 来 就 学 C++ ， 导 致 大 多 数学 生 都 以 为 
































































































































自己 会 CGC 语言 


没有 机 会 再 
































言 ， 但 其 实 都 是 半 帅 子 水 平 ， 到 真正 写 代 码 的 时 候 经 常 为 一 个 Bug 搞 得 焦头烂额 ， 却 
AUT CIE, 因为 在 学 校 看 来 ， C 语 言 课 早 在 大 一 就 给 你 "上 完了 "， 就 像 一 









































顿 饭 已 经 吃 完 
课程 做 优化 ， 


本 书 有 以 下 



































了 不 管 你 吃 饱 没 吃 钨 ， 不 会 再 让 你 重 吃 一 遍 了 。 显 而 易 见 ， 如 果 要 认真 地 对 这 些 
的 确 是 有 很 多 水 份 可 以 挤 的 。 
































特点 : 











K 








不 是 孤立 地 讲 C 语 言 ， 而 是 和 编译 原理 、 操 作 系 统 、 计 算 机 体系 结构 结合 起 来 讲 。 或 者 
说 ， 本 书 的 内 容 只 是 以 C 语 言 为 载体 ， 真正 讲 的 是 计算 机 的 原理 和 程序 的 原理 。 


。 强调 基本 概念 和 基本 原理 ， 在 编排 顺序 上 非常 重视 概念 之 间 的 依赖 关系 ， 每 次 引入 一 个 新 
的 概念 ， 只 依赖 于 前 面 章 节 已 经 讲 过 的 概念 ， 而 绝 不 会 依赖 后 面 章节 : 讲 的 概念 。 有 些 地 
方 为 了 叙述 得 完整 ， 也 会 引用 后 面 要 讲 的 内 容 ， 比 如 说 “有 关 XX 我 们 到 XX 章 再 仔细 讲解 ”， 
凡是 这 种 引用 都 不 是 必要 的 依赖 ， 可 以 当 它 不 存在 ， 只 管 继续 往 下 看 就 行 了 。 


。 尽量 做 到 每 个 知识 点 直到 要 用 的 时 候 才 引入 。 过 早 引入 一 个 知识 点 ， 讲 完了 又 不 用 它 ， 读 
者 很 快 就 会 遗忘 ， 这 是 不 符合 认 知 规律 的 。 


是 一 本 从 零 基础 开始 学 习 编程 的 书 ， 不 要 求 读者 有 任何 编程 经 验 ， 但 读者 至 少 需 要 具备 以 下 素 
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。 就 悉 Linux 系 统 的 基本 操作 。 如 果 不 具 备 这 一 点 ， 请 先 参考 其 它 教 材 学 习 Linux 系 统 的 基本 
操作 ， 熟 练 之 后 再 学 习 本 书 ，《 乌 哥 的 Linux 私 房 菜 》 据说 是 Linux 系 统管 理 和 应 用 方面 比 
较 好 的 一 本 书 。 但 学 习 本 书 并 不 需要 会 很 多 系统 管理 技术 ， 只 要 会 用 基本 命令 ， 会 自己 安 

AE RAL is APE T o 


。 具有 高 中 毕业 的 数学 水 平 。 本 书 会 用 到 高 中 的 数学 知识 ， 事 实 上 ， 如 有 果 不 具 有 高 中 毕业 的 
数学 水 平 ， 也 不 必 考 虑 做 程序 员 了 。 但 并 不 是 说 只 要 具有 高 中 毕业 的 数学 水 平 就 足够 做 程 
序 员 了 ， 只 能 说 看 这 本 书 应 该 疫 有 问题 ， 数 学 是 程序 员 最 重要 的 修养 ， 计 算 机 科学 其 实 就 
是 数学 的 一 个 分 文 ， 如 采 你 的 数学 功底 很 老 ， 日 后 还 需 亚 补 一 下 。 


。 具有 高 中 毕业 的 英文 水 平 。 理 由 同上 。 


。 最 重要 的 是 对 计算 机 的 原理 和 本 质 深 感 兴趣 ， 不 是 为 就 业 而 学 习 ， 不 是 为 拿 高 薪 而 学 习 ， 
而 是 真 的 感 兴趣 ， 想 把 一 切 来 龙 去 脉 搞 得 请 清楚 楚 而 学 习 。 


。 勤 于 思考 。 本 书 尽 最 大 努力 理 清 概 念 之 间 的 依赖 和 关系， 力求 一 站 式 学 习 ， ee NE I 
找 一 个 概念 的 定义 去 翻 其 它 书 ， 也 不 需要 为 了 搞 清 楚 一 个 概念 在 本 书 中 前 后 一 通 乱 翻 ， 只 
需 从 前 到 后 按 顺 / ns 但 一 站 式 学 习 并 不 等 于 傻瓜 式 学 习 ， 有 些 章节 有 一 定 的 难 
度 ， 需 要 积极 思考 才能 领会 。 本 书 可 以 蔡 你 节省 时 间 ， 但 不 能 荐 你 思考 ， 不 要 指望 像 看 小 
说 一 样 走马 观 花 看 nra. 


又 是 一 本 C 语 言 书 。 好 吧 ， 为 什么 我 要 学 这 本 书 而 不 是 齐 洛 踢 或 
者 K&R? 
谭 浩 强 的 书 我 就 不 说 什么 了 。 居 然 教 学 生 inciude 一 个 .c 文 件 。 


K&R 是 公认 的 世界 上 最 经 典 的 C 语 言 教程 ， 这 点 训 无 疑问 。 在 C 标 准 出 台 之 前 ，K&R 第 一 版 就 是 
事实 上 的 C 标 准 。C89 标 准 出 台 之 后 ，K&R 跟 着 标准 推出 了 第 二 版 ， 可 惜 此 后 就 没有 更 新 过 了 ， 
所 以 不 能 反映 C89 之 后 C 语 言 的 发 展 以 及 最 新 的 C99 标 准 ， 本 书 在 这 方面 做 了 很 多 补充 。 上 面 我 
说 过 了 ， 这 本 书 与 其 说 是 讲 C 语 言 ， 不 如 说 是 以 C 语 言 为 载体 讲 计算 机 和 操作 系统 的 原理 ， 
而 K&R 就 是 为 了 讲 C 语 言 而 讲 C 语 言 ， 侧 重点 不 同 ， 内 容 编排 也 很 不 相同 。K&R 写 得 非常 好 ， 代 
码 和 语言 都 非常 简洁 ， 但 很 可 惜 ， 只 有 会 C 语 言 的 人 才 懂 得 欣赏 它 ，K&R 是 非常 不 适合 入 门 学 习 
的 , 尤其 \ 适 合 零 基 出 的 学 生 入 门 学 习 。 


这 本 书 “ 是 什么 ”和 “不 是 什么 
本 书包 括 三 大 部 分 
。C 语 言 入门 。 介 绍 基本 的 C 语 法 ， 帮 助 没有 任何 编程 经 验 的 读者 理解 什么 是 程序 ， 怎 么 写 各 
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面 介 绍 C 的 语法 。 位 运算 的 章 








前 了 





I] 惯 ， 找 到 编程 的 感觉 。 
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ARÉ 
学 习 编 程 有 两 种 Approach , 
者 结合 起 来 。 所 以 我 编 这 本 书 的 思路 是 ， 第 一 部 分 Top Down, 第 二 部 分 }Bottom Up, 


部 分 改编 


讲解 C 程 序 
育林 人 小竹 














H [ThinkCpp]. 
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是 怎么 编译 、 链 接 、 运 行 的 ， PES 
老师 的 讲义 ， 链 表 和 二 又 树 的 章 























师 的 讲义 。 汇 编 语 
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一 种 是 Bottom Up, 














第 三 部 分 
Linux RAFAEL. J 





可 以 算 填 了 中 间 的 空隙 ， 








三 部 分 全 都 








围绕 C 语 


[GroudUp]， 在 这 本 书 的 最 后 一 章 
一 种 是 Top Down， 各 有 优 缺 点 ， 
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介绍 各 种 Linux 系 统 函 数 和 内 核 的 
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原理 。Socket 编 程 的 章 





TER E 




















srt. 





这 
容 都 不 深入 ， 书 中 列 出 了 


个 Whirlwind Tour, 
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本 书 定位 在 入 门 级 ， 虽 然 


把 全 书 的 内 容 简 让 
| 算 机 专业 课程 体系 的 一 个 Whirlwind Tour, 





内 容 很 多 ， 但 不 是 
很 多 参考 资料 ， 是 读者 进 


有 过 了 一 遍 ， 
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考 资 料 就 应 该 很 容易 上 于 





为 什么 要 在 Linux 平 台 上 学 C 语 言 


吗 ? 


用 Windows 还 真 的 是 学 不 好 C 语 言 。 
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操作 系统 的 工作 原 ] 
系统 提供 的 接口 。 既 然 你 
何 疑问 都 可 以 从 源 代 码 和 
高 手 教 你， 各 种 邮件 列表 、 
的 操作 系统 ， 除了 微软 的 
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学 习 完 本 书 之 后 有 
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了 一 个 全 局 观 ， 再 





? 用 Windows 学 C 语 言 不 好 
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C 语 言 是 一 种 面向 底 
清楚 ， 因 为 操作 系统 也 是 用 C 写 的 ， 
选择 了 看 这 本 书 ， 你 一 定 了 解 : 
文档 中 找到 答案 ， 即 使 你 看 不 懂 

新 闻 组 和 论坛 上 从 来 都 不 缺 乐 了 
员工 别人 都 看 不 到 它 的 源 代码 ， 只 
























































糟糕 的 是 ， 微 软 癌 来 喜欢 


一 部 分 在 Linux 或 Window 
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要 写 好 C 程 序 
] 用 C 写 应 用 程 
一 种 开源 的 操 


， 必 须 对 
序 直 接 使 用 操作 
ERR, MAIE 
| 文档 ， 也 很 容易 找 个 
助人 的 高 手 ; 而 Windows 是 一 种 封闭 
能 通过 文档 兴 猿 测 它 的 H 

















我 人 


= 
AE 
















































































藏 春 挪 着 ， 好 用 的 功能 留 着 自己 用 ， 
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s 平 台 上 学 习 都 可 以 ， 但 第 二 
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具 往 往 和 各 种 集成 开发 环境 (IDE, 





里 解 C 语 




















Environment) 绑 在 一 起 ， 
者 绝对 不 是 好 东西 。 微 软 
钮 就 可 以 编译 出 程序 来 ， 
































例如 Visual Studio. Ec 
喜欢 宣扬 傻瓜 式 编程 的 理念 ， 告 诉 









































但 是 真正 有 用 的 程序 有 哪个 是 这 么 











学 编程 的 人 ， 编 了 好 几 年 
一 个 项 目 里 就 可 以 编译 到 一 


钮 、 菜 单 的 概念 ， 根 本 没 
些 都 是 















































程序 ， 还 是 只 知道 编 完 程 序 点 一 个 








部 分 和 第 三 部 
只 能 在 Linux 平 台 上 学 习 。 


lipse 等 。 使 用 IDE 确 实 很 便捷 ， 但 IDE 对 了 


按钮 就 可 以 跑 了 ， 把 几 个 源 文件 





作 原 理 ， 更 
而 不 会 写 到 文档 里 公开 。 本 书 的 第 
AN AN 


分 介绍 了 很 多 Linux 操 作 系 统 








Integrated Development 








-初学 
你 用 鼠标 拖 几 个 控件 ， 然 后 点 一 个 按 
拖 出 来 的 ? 很 多 从 Windows 平 台 入 门 
拖 到 
































起 了 ， 如 果 有 更 复杂 的 需求 他 们 
有 编译 器 、 链 接 器 、Maketfile 的 概念 
起 来 的 另 一 方面 ， 编 译 
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， 甚 至 连 命令 行 都 没 用 过 ， 然而 这 
、 链 接 带 和 C 语 言 的 语法 有 密切 
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还 得 弄 清 楚 编 译 命令 和 |DE 
导 更 加 复杂 了 。Linux 用 
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[编译 命令 学 会 就 行 了 ， 现 在 有 

全 怎么 集成 的 ， 这 才 算 学 明白 
站 的 使 用 习惯 从 来 都 是 以 融 命 令 为 
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， 你 党 得 哪个 IDE 好 用 你 再 
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FG EAE OR EIR AME, TERE, HARRE, AYR TIA, the eR, FAME 
等 等 。 然 而 有 这 人 么 多 热心 的 同学 、 老 师 、 朋 友 、 网 友 在 等 大 看 我 的 书 更 新 ， 给 我 提 建 议 希 望 我 把 
书 改 得 更 完善 ， 这 是 我 坚持 写 下 去 的 最 大 的 动力 。 谢 谢 你 们 ! 
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1. 继续 Hello World 
2. 常量 
.变量 


3. 45g 
4. 赋值 
5. 表达 式 


6. 字符 类 型 与 字符 编码 



































1. 评语 何 

2. if/else 语 句 
3. 布尔 代数 
4. switchi fj 











1. returni#4] 
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3. 3$ 14 
6. JAMBA 

1. whilei# 4] 

2. do/whilei# 4] 


3. for 语 何 
4. break 和 continue 语 何 
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第 1 章 程序 的 基本 概念 


1. 程序 和 编程 语言 


程序 (Program) 是 一 个 精确 说 明 如 何 进行 计算 的 指令 序列 。 这 里 的 计算 可 以 是 一 些 数 学 上 的 计 
算 ， 比 如 解 方程 或 者 求 多 项 式 的 根 ， 也 可 以 是 符号 运算 ， 一 个 简单 的 例子 是 查找 和 替换 文档 中 
的 词 ， 一 个 复杂 的 例子 是 搜索 引擎 。 从 根本 上 说 ， 计 算 机 是 由 数字 电路 组 成 的 运算 机 带 ， 只 能 
对 数字 做 运算 ,程序 之 所 以 能 做 符号 运算 是 因为 符号 在 计算 机 内 部 也 是 用 数字 来 表示 的 。 此 
外 ， 程 序 还 可 以 处 理 声 音 和 图 像 ， 同 样 因为 声音 和 图 像 在 计算 机 内 部 是 用 数字 来 表示 的 ， 这 些 
数字 再 通过 专门 的 硬件 设备 转换 成 人 可 以 听 到 、 看 到 的 声音 和 图 像 。 


程序 由 一 系列 指令 (Instruction) 组 成 ， 指 令 是 指示 计算 机 做 茶 种 运算 的 命令 ， 通 党 包括 以 下 几 


类 ; 














































































































































































































































































































































































































输入 (Input) 

从 键盘 、 文 件 或 者 其 它 设备 获取 数据 。 
输出 (Output) 
把 数据 显示 到 屏幕 ， 或 者 存 入 一 个 文件 ， 或 者 发 送 到 其 它 设备 。 
基本 运算 
执行 最 基本 的 数学 运算 (HBA) 和 数据 存 取 ， 其 实 输入 和 输出 也 属于 数据 存 取 。 
测试 和 分 支 (Branch) 

测试 某 个 条 件 ， 然 后 根据 不 同 的 测试 结果 执行 不 同 的 后 续 指 今 。 
循环 (Loop) 
重复 执行 一 系列 操作 。 
对 于 程序 来 说 ， 有 上 面 这 几 类 指令 就 足够 了 。 你 曾 用 过 的 任何 一 个 程序 ， 不 管 它 有 多么 复杂 ， 
都 是 由 上 面 这 几 类 指令 组 成 的 。 程 序 是 那么 的 复杂 ， 而 编写 程序 可 以 用 的 指令 却 只 有 这 么 简单 
的 几 种 ， 这 中 间 巨 大 的 落差 就 要 由 程序 员 去 填 了 ， 所 以 编写 程序 理应 是 一 件 相 当 复杂 的 工 
作 。 编 写 程序 可 以 说 就 是 这 样 一 个 过 程 : 把 复杂 的 任务 分 解 成 子 任务 ， 把 子 任务 再 分 解 成 更 简 
单 的 任务 ， 层 层 分 解 ， 直 到 最 后 简单 得 可 以 用 以 上 指令 来 完成 。 
在 不 同 的 编程 语言 (Programming Language) 中 ， 以 上 几 种 指令 具有 不 同 的 形式 。 通 常 “ 指 
令 " 这 个 词 专 指 机 需 语 言 (Machine Language) 或 者 汇编 语言 (Assembly Language) 等 低级 
语言 (Low-level Language) 中 的 指令 ， 而 在 C 语 言 、C++、Java、Python 等 高 级 语言 (High- 


level Language) 中 通常 称 为 语句 (Statement) 或 表达 式 (Expression) 上 四。 举 个 例子 ， 同 样 
一 个 语句 用 C 语 言 、 汇 编 语言 和 机 器 语言 表示 如 下 : 










































































































































































































































































































































































































































































表 1.1. 同一 个 语句 的 三 种 表示 


RR 



























































计算 机 只 能 对 数字 做 运算 ， 昌 然 高 级 语言 
转换 成 计算 机 可 以 直接 处 理 的 机 咒语 言 仍 然 是 闪 





















































;有 大 量 的 符号 ， 





但 这 此 











数字 ， 上 表 














成 。 最 早 的 程序 员 都 是 直接 用 机 需 语 言 编程 ， 但 是 很 麻烦 ， 
































表示 什么 意思 ， 编 写 出 来 的 程序 很 不 直观 ， 很 容易 出 错 ， 












































一 组 一 组 数字 用 助 记 符 (Mnemonic) 来 表示 ， 




















(Assembler) Zee BHO ERRARE, t 
可 以 看 出 ， 汇 编 语言 和 机 器 语言 的 指令 是 
HS, 汇编 器 就 是 做 一 个 简单 的 禁 换 工作 ， 
式 的 指令 蔡 换 成 机 器 码 9。 45， 把 指令 中 的 -oxc 蔡 换 成 机 


从 上 面 的 例子 还 可 以 看 出 ，C 语 言 的 语句 和 低级 语言 的 指 




















































































































些 符 写 都 是 人 为 定义 的 ， 最终 


! 的 机 器 语言 完全 由 十 六 进 制 数 字 组 














需要 查 大 量 的 表格 来 确定 每 个 数字 















































于 是 有 了 汇编 语言 把 机 器 语言 中 的 











直接 用 这 些 助 记 符 写 出 汇编 程序 ， 然 后 让 汇编 器 








条 a=b+1 语 句 要 翻译 成 三 条 汇编 或 机 器 指令 ， 











(Compiler) 来 完成 ， 显 然 编 译 占 的 功能 比 汇 编 带 要 复杂 得 多 。 用 C 语 言 编写 的 程序 必须 经 过 纺 





例如 在 第 一 条 指令 中 











EL aa T 








言 翻译 成 了 机 器 语言 。 从 上 面 的 例子 














一 一 对 vy 的 ， il 编 语 主 Fi 有 











条 指令 机 器 语言 也 有 三 条 
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dn dta G 





Lomovl ?(%ebp), seax 这 种 格 


这 是 补 码 表示 ) 。 











令 之 间 不 是 简单 的 一 一 对 应 关系 ， 
这 个 过 程 称 为 编译 (Compile) ， 由 编译 做 




















译 转 成 机 器 指令 才能 被 计算 机 执行 ， 运 行 编译 吉 











































































































Independent) ， 平 台 这 个 词 有 很 多 种 解释 ， 





指 操作 系统 (Operating System) , th 可 以 指 


















































今 集 (Instruction Set) ， 可 以 识别 的 机 器 


指 









































译 成 该 计 











指令 写 出 来 的 程序 只 能 E 这 种 计算 机 上 执行 ， 
算 机 自己 的 (Native) 机 器 指令 ， 











旦 序 要 消耗 一 些 时 间 ， 这 是 一 个 小 小 的 缺点 ， 
而 优点 则 是 不 可 胜 数 的 。 首 先 ， 用 C 语 言 编程 更 容易 ， 写 出 来 的 代码 更 紧凑 ， 可 读 性 更 强 ， 也 更 
容易 改正 。 其 次 ， Cile TE fj (Portable) 












































或 者 称 为 平台 无 关 的 (Platform 


可 以 指 计算 机 体系 结构 (Architecture) ， 也 可 以 





两 者 的 组 合 。 不 同 的 计算 机 体系 结构 有 不 同 的 指 























然而 各 种 计 


令 格 式 是 不 同 的 ， 





















































直接 用 茶 种 计算 机 的 汇编 或 机 需 









































算 机 上 都 有 C 编 译 圳 ， 可 以 把 C 程 序 编 









































这 意味 着 用 C 语 言 写 出 来 的 程序 只 需要 稍 加 修改 甚至 












































个 用 修改 就 可 以 在 不 同 的 计算 机 上 编译 执行 。 























分 Tz 是 用 高 级 语言 编写 子 的 ， 只 有 和 硬件 





级 语言 。 














总 结 一 下 编译 执行 的 过 程 ， 首先 你 用 文本 网 和 














如 program.c (通常 C 程 序 的 文件 名 后 级 是 .c) ; 这 称 为 源 
后 运行 编译 需 对 它 进行 编译 ， 编 译 的 过 程 并 不 执行 程序 ， 而 是 # 
如 a.onut ， 这 称 为 





























再 加 上 一 些 描述 信息 ， 生 成 一 个 新 的 文件 ， 






































各 种 =] 级 语 








器 写 一 个 C 程 序 ， 然 后 保存 成 一 个 文件 ， 例 
t (Source Code) 或 源 文件 ， E. A 








这 都 具有 C 语 言 的 这 些 优点 ， 所 以 绝 大 
关系 密切 的 少数 程序 (例如 驱动 程序 ) 才 会 用 到 低 



































例 


























人 (Executable) 。 其 实 可 执行 文件 上 


























EH 


Fi 
MAE 


目标 文件 的 




















一 种 类 型 ， 




















巴 源 代 码 全 部 翻译 成 机 器 8 指令， 
目标 文件 (Object File) 或 可 执 














以 后 我 们 会 详细 介绍 其 它 



































类 型 的 目标 文件 。 可 执行 文件 代码 才 是 计算 机 可 以 执行 的 程序 ， 如 下 图 所 示 : 




















图 1.1. 编译 执行 过 程 











source 
code 


i EE UR 
源 代码 





executable loader 


ARER 你 计 操作 Fe TA T 
可 执行 文 


件 加 载运 行 这 个 的 ] 结 果 出 现 
可 执行 Cit... 在 屏幕 上 





有 些 高 级 语言 以 解释 (Interpret) 的 方式 执行 ， 解 释 执行 的 过 程 和 C 语 言 的 编译 执行 过 程 很 不 一 
FÉ, 例如 写 一 个 Python 源 代码 ， f program. py (通常 Python 程序 的 文件 名 后 组 是 .py) , ER 














后 ， 并 不 


图 














需要 生成 目标 代码 ， 





1.2. 解释 执行 过 程 








source 


code 


解释 器 读 取 
源 代码 解释 
HiT... 






































而 是 直接 运行 解释 器 (Interpreter) 执行 该 源 代 码 ， 解 释 器 是 一 行 
一 行 地 翻译 源 代码 ， 边 翻译 边 执行 的 。 如 下 图 所 示 : 

















.程序 运行 
的 结果 出 现 
在 屏幕 上 





编程 语言 仍 在 发 展演 化 。 以 上 介绍 的 机 器 语言 称 为 第 一 代 语 言 (1GL, 1st Generation 























Programming Language) , 
Language) , C. C++, Jav 
Programming Language) 。 


Language) 和 5GL (5th Generation Programming Language) 的 概念 ， 





T, 4GL 





(Imperative) ， 具 体 一 步 





汇编 语言 称 为 第 二 代 语 言 (2GL, 2nd Generation Programming 
a、Python 等 可 以 称 为 第 三 代 语 言 (3GL, 3rd Generation 





目前 已 经 有 了 4GL (4th Generation Programming 


























主要 区 别 在 

















以 后 的 语言 主要 不 是 通过 输入 、 输 出 、 基 本 运算 、 测 试 分 支 和 循环 这 些 基本 指 令 来 编 























gU. 4GL 以 后 的 语言 更 多 是 在 描述 要 做 什么 (Declarative) 而 不 是 描述 具体 一 























-上 












































(SQL, Structured Query Language ， 结 构 化 查询 语言 ) 就 是 这 样 的 例子 。 


习题 

















1、 解 释 执 行 的 语言 相 比 编译 执行 的 语言 有 什么 优 缺 点 ? 


的 第 一 个 思考 题 。 本 书 的 思考 题 通常 要 求 读 者 系统 地 总 结 当 前 小 厄 的 知识 ， 结 合 以 前 
然后 作答 。 本 书 强调 的 是 基本 概念 ， 读 者 应 该 抓 住 概念 的 定义 和 
的 关系 来 总 结 ， 比如 本 节 介绍 了 很 多 概念 : 程序 由 语句 或 指 令 组 成 ， 在 高 级 语言 写 的 








这 是 我 们 
的 知识 ， 
概念 之 间 

















并 经 过 一 定 的 推理 

































































程序 中 通 














步 





一 步 怎么 做 


PIE AREA NE 8 或 解释 圳 决定 ， 例 如 SQL 语言 



















































































令 ， 高 级 语 





T, mie 
之 间 是 一 





语言 要 执行 就 必 必须 先 翻 译 成 低级 语言 ， 翻译 的 方法 有 两 种 一 一 编 译 和 解 





澡 叫 语句 ， 在 低级 语言 写 的 程序 中 通常 叫 指令 ， 计 算 机 只 能 执行 低级 语言 



































样 的 不 便 ， 但 高 级 语言 有 一 个 好 处 是 平台 无 关 性 。 什 么 是 平台 ? 一 种 平台 ， 就 是 
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F, 


a 
虽然 有 这 





一 和 





中 体系 结 





一 种 指 令 集 ， 就 是 一 种 机 器 语言 ， 这 些 都 可 看 作 是 一 一 对 应 的 ， 上 文 疫 有 明确 讲 它们 






































一 对 应 的 但 读者 应 该 能 推理 出 这 个 结论 ， 而 高 级 语言 和 它们 不 是 一 一 对 应 的 ， 因 此 高 












































级 语言 是 


























让 平台 无 关 的 ， 概 仿 :之 间 像 这 样 的 数量 对 应 关系 尤其 重要 。 那 和 编译 和 解释 的 过 程 有 哪 


























些 不 同 ? 主要 的 不 同 在 于 什么 时 候 翻译 和 什么 时 候 执 行 。 














下 比较 ? 


现在 回答 这 


个 思考 题 ， 根 据 编译 和 解释 的 不 同 原理 ， 能 








oy 

















在 执行 效率 和 平台 无 关 性 等 方面 做 一 

















da TRE Se LBS A HUD BB 2313, RSE i Sd I AB A EE 
ZEE MIB. WREATH A EI Ts, I EM ET, KA, P 
后 的 索引 可 以 帮 你 找到 它 是 在 哪 一 市 定义 的 。 





[语句 和 表达 式 之 间 的 划分 在 不 同 的 编程 语言 中 有 不 同 的 规定 ， 例 如 赋值 在 C 语 言 中 是 表达 
式 ， 而 在 Python 中 就 是 语句 。 


2. B SAT E TUE AS SS 


第 1 章 程序 的 基本 概念 
2. 目 然 ANY AMEA EH 


























自然 语言 (Natural Language) 就 是 人 类 讲 的 语言 ， 比 如 汉语 、 英 语 和 法 语 。 这 类 语言 不 是 人 
为 设计 (虽然 有 人 试图 强加 一 些 规则 ) 而 是 自然 进化 的 。 形 式 语 言 (Formal [sadal 是 为 了 
特定 应 用 而 人 为 设计 的 语言 。 例 如 数学 家 用 的 数字 和 运算 符号 、 化 学 家 用 的 分 子 式 等 。 编 程 语 
言 也 是 一 种 形式 语言 ; 是 专门 设计 用 来 表达 计算 过 程 的 形式 语言 。 


形式 语言 有 严格 的 语法 (Syntax) 规则 ， 例 如 ，3+3=6 是 一 个 语法 正确 的 数学 等 式 ， 而 3=+6s 则 
不 是 ，HoO 是 一 个 正确 的 分 子 式 ， 而 22z 则 不 是 。 语 法 规则 是 由 关于 符号 (Token) 和 结构 
(Structure) 的 规 则 所 组 成 的 。Token 的 概念 相当 于 自然 语言 中 的 单词 和 标点 、 数 学 式 中 的 数 和 
运算 符 、 化 学 分 子 式 中 的 元 素 名 和 数字 ， 例 如 3=+6$ 的 问题 之 一 在 于 $ 不 是 一 个 合法 的 数 也 不 是 
一 个 事先 定义 好 的 运 算 符 ， 而 22z 的 问题 之 一 在 于 没有 一 种 元 素 的 缩写 是 Zz。 语 法 规则 的 第 二 个 
范畴 是 结构 ， 也 就 是 Token 的 排列 方式 。3=+6$ 还 有 一 个 结构 上 的 错误 ， 昌 然 加 号 和 等 号 都 是 合 
法 的 运算 符 ， 但 是 不 能 在 等 号 之 后 紧 跟 加 号 ， 而 ?Zz 的 另 一 个 问题 在 于 分 子 式 中 必须 把 下 标 写 在 
化 学 元 素 名 称 之 后 而 不 是 前 面 。 关于 Token 的 规则 称 为 词法 (Lexical) 规则 ， 而 关于 语句 结构 
的 规则 称 为 语法 (Grammar) HJR, 


当 阅 读 一 个 自然 语言 的 句子 或 者 一 种 形式 语言 的 语句 时 ， 你 不 仪 要 搞 清 楚 每 个 词 (Token) 是 
什么 意思 ， 而 且 必 须 搞 清楚 整个 句子 的 结构 是 什么 样 的 (在 日 然 语言 1 你 只 是 没有 意识 到 ， 但 
确实 这 样 做 了 ， 尤其 是 在 读 外 语 时 你 肯定 也 意识 到 了 ) 。 这 个 分 析 句 子 结 构 的 过 程 称 为 解析 

(Parse) 。 例 如 ， 当 你 听 到 “The other shoe fell. 你 理解 the other shoe 是 主语 
而 fell 是 谓语 动词 ， 一旦 解析 完成 ， 你 就 搞 懂 了 句子 的 意 ， 如 果 知 道 snoe 是 什么 东西 ，fall 意 味 
着 什么 ， 这 人 向 话 是 在 什么 上 下 文 (Context) 里 说 的 ， 你 还 还 能 理解 这 个 名 了 主要 暗示 的 内 容 ， 这 
些 都 属于 语义 (Semantic) 的 范畴 。 


里 然 形式 语言 和 自然 语言 有 很 多 共同 之 处 ， 包 括 Token、 结 构 和 语义 ， 但 是 也 有 很 多 不 一 样 的 地 
方 。 

歧义 性 (Ambiguity) 

自然 语言 充满 歧义 ， e 些 信息 来 解决 这 个 问题 。 形 式 语言 的 


设计 要 求 是 清晰 的 、 毫 无 歧义 的 ， 这 意味 着 每 一 个 语句 必须 有 确切 的 含义 而 不 管 上 下 文 如 
可 。 
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宛 余 性 (Redundancy) 

为 了 消除 歧义 减少 误解 ， 自 然 语 言 引 入 了 相当 多 的 宛 余 。 结 果 
HR, MBs SUA, MDA ITA 
与 字面 意思 的 一 致 性 


自然 语言 充斥 着 成 语 和 隐喻 (Metaphor) ， 我 在 某 HAR Pb ‘The other shoe fell", "fe 
并 不 是 说 谁 的 鞋 反 了 。 而 形式 语言 中 字面 (Literal) 意思 基本 上 就 是 真实 意思 ， 也 有 些 特 
殊 情 况 ， 例 如 C 语 言 的 转 义 序列 (Escape Sequence) , 但 也 都 会 明确 规定 哪些 字面 意思 
不 是 真实 意思 ， 它 们 所 表示 的 真实 意思 又 是 什么 。 


说 自然 语言 长 大 的 人 (实际 上 没有 人 例外 ) ， 往 往 有 一 个 适应 形式 语言 的 困难 过 程 。 某 种 意义 





















































HANE S A H oS E 
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上 ， 形 式 语言 和 自然 语言 之 间 的 不 同 正 像 诗 歌 和 说 明文 的 区 别 ， 当 然 ， 前 者 的 区 别 比 后 者 更 明 
显 : 







































































词语 的 发 音 和 意思 一 样 重要 ， 全 诗作 为 一 个 整体 创造 出 一 种 效果 或 者 表达 出 一 种 感情 。 攻 
义 和 非 字面 意思 不 仅 是 常见 的 而 且 是 刻意 使 用 的 。 

说 明文 
词语 的 字面 意思 显得 更 重要 ， 而 且 结构 能 传达 出 更 多 的 信息 。 诗 歌 只 能 看 一 个 整体 ， 而 说 
明文 更 适合 逐 字 名 分 析 ， 但 仍然 充满 歧义 。 

程序 


计算 机 程序 是 毫 无 歧义 的 ， 字 面 和 本 意 高 度 一 致 的 ， 通过 对 Token 和 结构 的 分 析 
加 以 理解 。 


现在 给 出 一 些 关 于 阅读 程序 (包括 其 它 形式 语言 ) 的 建议 。 首 移 请 记 住 形式 语言 远 比 自然 语言 
紧 次 ， 所 以 要 多 化 点 时 间 来 读 。 其 次 ， 络 构 很 重要 ， 从 上 到 下 从 顽 到 右 地 读 往往 不 是 一 个 好 从 
法 ， 而 应 该 学 会 在 大 脑 里 解析 : 识别 Token , 分 解 结构 。 最 后 ， 请 记 住 细 市 的 影响 ， 诸 如 拼写 错 
误 和 标点 错误 这 些 在 自然 语言 中 可 以 忽略 的 小 毛病 会 把 形式 语 Em 日 全 非 。 













































































































































































































































































































































































































































































[很 不 幸 ，Syntax 和 Grammar 通 常 都 翻译 成 语法 "， 这 让 初学 者 非常 混乱 ，Syntax 的 含义 其 仿 
包含 了 Lexical 和 Grammar， 还 包含 一 部 分 语义 (Semantic) ， 例 如 变量 应 先 声明 后 使 用 。 即 使 
在 英文 的 文献 iSyntax 和 Grammar 也 常 混用 ， 有 些 时 候 Syntax 不 包括 Lexical。 不 过 也 没什么 影 
响 ， 只 要 结合 上 下 文 去 看 就 不 会 误解 。 本 书 中 在 容易 引起 混淆 的 地 方 通常 直接 用 英文 名 称 ， p 
如 Token 没 有 十 分 好 的 翻译 ， 直 接 用 英文 名 称 。 
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第 1 章 程序 的 基本 概念 


3. 程序 的 调试 


编程 是 一 个 复杂 的 过 程 ， 因 为 是 人 做 的 事情 ， 所 以 难免 经 常 出 错 。 据 说 有 这 样 一 个 典故 : 早期 
的 计算 机 体积 都 很 大 ， 有 一 次 一 台 计 算 机 不 能 正常 工作 了 ， 工 程 师 们 找 了 半天 原因 最 后 发 现 是 
一 只 内 虫 钻 进 计 算 机 中 造成 的 。 从 此 以 后 ， 程 序 中 的 错误 被 叫做 具 虫 (Bug) ， 而 找到 这 
些 Bug 并 加 以 纠正 的 过 程 就 叫做 调试 (Debug) 。 有 时 候 调 试 是 一 件 非常 复杂 的 工作 ， 要 求 程序 
员 概 念 明确 、 逻 辑 清 晰 、 性 格 沉 稳 ， 还 需要 一 点 运气 。 调 试 的 技能 我 们 在 后 续 的 学 习 中 慢 慢 培 
养 ， 但 首先 我 们 要 区 分 清楚 程序 中 的 Bug 分 为 哪儿 类 。 


编译 时 错误 


编译 需 只 能 翻译 语法 正确 的 程序 ， 和 否则 将 导致 编译 失败 ， 无 法 产生 目标 代码 。 对 于 自然 语 
言 来 说 ,一 点 语法 错误 不 是 很 严重 的 问题 ， 因 为 我 们 仍然 可 以 读 懂 句 子 。 可 惜 编译 带 就 没 
那么 宽容 了 ， 只 要 有 哪怕 一 个 很 小 的 语法 错误 ， 编 译 妖 就 会 输出 一 条 错误 提示 信息 然后 圈 
工 ， 你 就 得 不 到 你 想 要 的 目标 代码 。 昌 然 大 部 分 情况 下 编译 右 给 出 的 错误 提示 信息 就 是 你 
出 错 的 代码 行 ， 但 也 有 个 别 时 候 编 译 需 给 出 的 错误 提示 信息 帮助 不 大 ， 甚 至 会 误导 你 。 在 
开始 学 习 编 程 的 前 几 个 星期 ， 你 可 能 会 花 大 量 的 时 间 来 纠正 语法 错误 。 等 到 有 了 一 些 经 验 
之 后 ， 还 是 会 犯 这 样 的 错误 ， 不 过 会 少 得 多 ， 而 且 你 能 更 快 地 发 现 错误 原因 。 等 到 经 验 更 
下定 之 后 你 就 会 觉得 ， 语 法 销 误 是 最 简单 最 低级 的 错误 ， 编 译 春 的 错 译 提示 也 就 那么 几 
种 ， 即 使 错误 提示 是 误导 的 ， 也 能 够 立刻 找 出 错误 原因 是 什么 。 相 比 下 面 两 种 错误 ,语法 
错误 解决 起 来 要 容易 得 多 。 


运行 时 错误 


编译 右 检 查 不 出 这 类 错误 ， 仍 然 可 以 生成 目标 代码 ， 但 在 运行 时 会 出 错 而 导致 程序 山 淡 。 
对 于 我 们 接 下 来 的 几 音 将 编写 的 简单 程序 来 说 ， 运 行 时 错误 很 少见 ， 不 过 到 了 后 面 的 章节 
你 可 能 会 开始 遇 到 很 多 运行 时 错误 ， 例 如 每 个 初学 者 都 会 遇 到 的 段 错 误 (Segmentation 
Fault) 。 硕 望 读者 在 以 后 的 学 习 中 时 刻 注意 区 分 编译 时 和 运行 时 (Run-time) 这 两 个 概 
念 ， 不 仅 是 调试 ， 在 掌握 C 语 言 的 很 多 特性 时 都 需要 区 分 这 两 个 概念 ， 有 些 事情 在 编译 时 
做 ， 有 些 事情 则 在 运行 时 做 。 


逻辑 错误 和 语义 错误 


第 三 类 错误 是 逻辑 错误 和 语义 错误 。 如 果 程序 里 有 逻辑 错误 ， 编 译 和 运行 都 会 很 顺利 ， 看 
上 去 也 不 产生 任何 错误 信息 ， 但 是 程序 没有 干 它 该 干 的 事情 ， 而 是 干 了 些 别 的 什么 。 当 然 
不 管 怎么 样 ， 计 算 机 只 会 按 你 写 的 程序 去 做 ， 问 题 出 在 你 写 的 程序 不 是 你 真正 想 要 的 ， 这 
意味 看 程序 的 意思 (BITES) 是 错 的 。 找 到 逻辑 错误 在 哪 需 要 十 分 清醒 的 头脑 ， 因 为 要 通 
过 观察 程序 的 输出 而 回 过 头 来 判断 它 到 底 在 做 什么 。 


通过 本 书 你 将 掌握 的 最 重要 的 技巧 之 一 就 是 调试 。 调 试 的 过 程 可 能 会 让 你 感到 一 些 泪 来 ， 但 调 
试 也 是 编程 中 最 需要 动脑 的 、 最 有 挑战 和 乐趣 的 部 分 。 从 某 种 角度 看 调试 就 像 侦探 工作 ， 根 据 
掌握 的 线索 来 推 新 是 什么 过 程 和 事件 导致 了 你 所 看 到 的 结果 。 调 试 也 像 是 一 门 实验 科学 ， 每 次 
想到 哪里 可 能 有 错 ， 就 修改 程序 然后 再 试 一 次 。 如 果 假 设 是 对 的 ， 就 能 得 到 预期 的 正确 结果 ， 
就 可 以 接着 调试 下 一 个 Bug ， 一 步 一 步 地 逼近 正确 的 程序 ;如 果 假 设 错 误 ， 只 好 另外 再 找 思 路 再 
做 假设 。“ 当 你 把 不 可 能 的 全 部 剔除 ， 剩 下 的 一 一 即使 看 起 来 再 怎么 不 可 能 一 一 就 一 定 是 事 

Sk. " (即使 你 没 看 过 福尔摩斯 也 该 看 过 柯南 吧 ) 。 








































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































也 有 一 种 观点 认为 ， 编 程 和 调试 是 一 回 事 ， 编 程 就 是 逐步 调试 直到 获得 期 望 结 果 为 止 的 过 程 。 
你 应 该 总 是 人 一 个 能 正确 运行 的 小 规 更 程序 开始 ， 每 做 一 步 小 的 改动 就 立刻 进行 调试 ， 这 样 的 
好 处 是 总 有 一 个 正确 的 程序 做 参考 : 如 果 正 确 就 继续 编程 ， 如 果 不 正确 ， 那 么 一 定 是 刚才 的 小 
改动 出 了 问题 。 例 如 ，Linux 操 作 系统 包含 了 成 千 上 万 行 RIS, 但 它 也 不 是 一 开始 就 规划 好 了 内 
存 管理 、 设 备 管理 、 文 件 系统 、 网 络 等 等 大 的 模块 ， 一 开始 它 仅仅 是 Linus Torvalds HSK —- 
fa tell 80386 t/i TIT 写 的 小 程序 。 据 Larry Greenfield 说 ， “Linus If 早期 工程 之 一 是 编写 
交替 打印 AAAA 和 BBBB 的 程序 ， 这 玩意 儿 后 来 进化 成 了 Linux。”( 引 上 自 The Linux User's Gu 
Betailk) 在 后 面 的 章节 中 会 给 出 更 多 关于 调试 和 编程 实践 的 建议 。 
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第 1 章 程序 的 基本 概念 





4. 第 一 个 程序 


通常 一 本 教 编程 的 书 中 的 第 一 个 例子 都 是 打印 “Hello, World."， 这 个 传统 源 自 [K&R]1， 用 C 语 言 
写 这 个 程序 可 以 这 样 写 : 





















































ffi] 1.1. Hello World 


: #include <stdio.h> 
| /* main: generate some simple output */ 


i int main (void) 


i 


printf (Vello, world.\n"); 
return 0; 








X 
ý 
> 
a 


呈 序 保存 成 main.c， 然后 编译 执行 : 





ee maine 
/ou 
: Hello, world. 

















gcc 是 Linux 平 台 的 C 编 译 器 ， 编 译 后 在 当前 目录 下 生成 可 执行 文件 as.out ， 直 接 在 命令 行 输入 这 
个 可 执行 文件 的 路 径 就 可 以 执行 它 。 如 采 不 想 把 文件 名 叫 a.out 可 以 用 gcc 的 -o 参 数目 己 指 定 文件 




































































: $ gcc main.c -o main 
i= ./main 
: Hello, world. 














虽然 这 只 是 一 个 很 小 的 程序 ， 但 我 们 目前 暂时 还 不 具备 相关 的 知识 来 完全 理解 这 个 程序 ， 比 如 
程序 的 第 一 行 ， 还 有 程序 主体 的 int main(void){...return 0;} 结 构 ， 这 些 部 分 我 们 斩 时 不 详细 
解释 ， 读 者 现在 只 需要 把 它们 看 成 是 每 个 程序 按 惯例 必须 要 写 的 部 分 (Boilerplate) 。 但 要 注 
意 nain 是 一 个 特殊 的 名 字 ， C 程 序 总 是 从 main 里 面 的 第 一 条 语句 开始 执行 的 ， 在 这 个 程序 中 是 


指 printf 这 条 语句 。 























NS 


































































































































































































第 3 行 的 /* ... */ 结 构 是 一 个 注 秋 (Comment) ， 其 中 可 以 写 一 些 描述 性 的 话 ， 解 释 这 一 段 程 
序 在 做 什么 ， 注 释 只 是 写 ee 编译 露 会 忽略 从 /* 到 *v 的 所 有 字符 ， 所 以 写 注释 没有 
语法 规则 , zE 么 写 就 怎么 写 ， 并 且 不 管 写 多 少 都 不 会 被 编译 进 目标 代码 。 


printf 的 作用 是 把 消息 打印 到 屏幕 ， 注 意 这 条 语句 的 末尾 有 一 个 ;号 (Semicolon) ，C 语 言 规定 
每 条 语句 末尾 都 要 有 一 个 ;号 ，printf 的 下 一 条 语句 也 是 如 此 。 


C 语 言 用 人 号 (Brace 或 Curly Brace) 把 语法 结构 分 成 组 ， 在 上 面 的 程序 中 printf 和 return 语 句 
套 在 main 的 人 喜 中 ， 表 示 它 们 属于 main 的 定义 之 中 。 我 们 看 到 这 两 句 相 比 main 那 一 行 都 缩 进 
(Indent) 了 一 些 ， 在 代码 中 可 以 用 香干 个 空格 (Blank) 和 Tab 字 符 来 缩 进 ， 缩 进 不 是 必须 











































































































































































































































































































的 ， 但 这 样 使 我 们 更 
齐 的 缩 进 。 

正如 前 面 所 说 ， 编 详 各 对 于 语法 
行 写成 了 staoi .hn ， 在 编译 日 








容易 看 出 这 两 行 是 属于 







































































会 得 到 错误 提示 : 


main 的 定义 之 


错误 是 训 不 留情 的 ， 如 与 


















































的 ， 要 写 出 漂亮 





的 程 


序 必 须要 有 整 


你 的 程序 有 一 点 拼写 错误 ， 例 如 第 一 


: $ goo main.c 
manine EOE 


erron: 


stdoi.h: No such file or directory 








个 错误 提示 非常 紧凑 ， 初 学 



































者 往往 不 容易 明白 出 了 什么 错误 





















































， 即 使 知道 这 个 错误 提示 说 的 是 











BIER 很 多 初学 者 对 照 着 书 看 好 





















































写 、 拼 写 不 敏感 (尤其 是 身 文 较 差 的 初学 者 ) ， 











几 通 也 看 不 出 自 ; 
他 们 还 不 知道 这 些 


哪 





1 这 “43 





























住 正确 的 拼写 ”对 于 初学 者 来 说 ， 


最 想 看 到 的 错误 提示 其 









































第 19 列 ， 您 试图 包含 一 个 ! 
做 stdio. h 的 文件 ， 我 猜 这 个 才 是 外 







































































理 。 


索 做 一 些 侦探 和 推 
有 些 时 候 编译 器 的 提示 信 


world.\n"); 改 成 printf (1 









































) ; 然后 编译 运行 : 


息 不 是 error 而 是 warning， 例如 于 


做 stdoi.h 的 文件 ， 可 惜 我 没有 找到 这 个 文件 ， 
休想 要 的 ， 对 吗 ?” ”可惜 没 有 任何 编译 带 
多 数 时 候 你 所 得 到 的 错误 提示 并 不 能 直接 指出 谁 是 犯人 
































B ri 




















符号 是 什么 总 


是 这 样 的 : 





而 上 只 是 一 个 线索 ， 你 需要 根据 这 个 线 





因为 他 们 对 符 




















思 又 如 何 能 记 
in.c 程 序 第 
但 我 却 找到 了 一 个 叫 








1 行 的 


会 友善 到 这 个 程度 ， 大 


























[的 printf(nHello， 


| $ gcc main.c 
P main.c: In function 
! main.c:7: 


imadni: 


: from integer without a cast 
FS o/a Out 
: Segmentation fault 


warning: passing argument 1 of ‘printf’ makes pointer 






































这 个 警告 信息 是 说 类 型 不 匹配 ， 但 勉强 还 能 配 得 上 。 警 告 信息 不 是 致命 错 



























































续 ， 如 果 整 个 编译 过 程 只 有 警告 信息 



















































































息 也 是 不 可 名 视 的 。 出 警告 信息 说 明 你 的 程序 
码 ， 但 程序 的 运行 结果 往往 是 不 正确 的 ， 例 如 























而 没有 错误 信息 ， 仍 然 可 

















Fí 












































行 时 错误 。 各 种 警告 信 





























HEX, 














以 生成 
Bug RE SAAME IRTE, 
面 的 程序 








编译 仍然 可 以 继 
目标 代码 。 但 是 ， 营 告 信 

















虽然 能 编译 生成 目标 代 
时 就 出 了 一 个 段 错误 ， 





























定 是 表明 程 请 









































外 一 些 警 告 只 表明 程序 写 得 不 够 规范 ， 一 般 还 


























是 不 提示 的 ， 但 这 些 警 告 信息 也 有 可 能 表明 程 请 




















有 
E 

息 的 严重 程度 不 同 ， 像 上 面 这 种 警告 几乎 
是 能 正确 i 


RI 


这 属 
' 有 Bug，， mA 




















运行 的 ， 


有 些 不 和 





的 警告 信 





ELS 


























项 ， 也 就 是 让 gcc 提 示 所 有 的 警告 信 
全 部 消灭 。 比 如 把 上 例 中 的 printf(" 




































































; 改 成 printf (0 























这 些 问 题 从 代码 
) ; 然后 编译 运行 : 








Fis 








息 gcc 默 认 
' 有 Bug。 一 个 好 的 习惯 是 打开 gcc 的 -Wall 选 
E. 不管 是 严重 的 还 是 不 严重 的 ， 然 后 把 


Hello, world.\n") 














: $ gcc main.c 
BE 

















编译 既 不 报错 也 不 报警 告 ， 一 切 正 沉 ， 但 是 运行 程序 什么 也 不 打印 。 如 曙 
































R+T JF- Wall 选 


项 编译 就 




























































































会 报警 告 了 : 

: $ gcc -Wall main.c 

maine eN EUN EH). nam 

imain.c:7: warning: null argument where non-null required 

i (argument 4.) 
如 果 printt 中 的 0 是 你 不 小 心 写 上 去 的 (例如 错误 地 使 用 了 编辑 器 的 查找 蔡 换 功能 ) ， 这 个 警告 
就 能 帮助 你 发 现 错误 。 昌 然 本 书 的 命令 行为 了 突出 重点 通常 省 略 -Wall 选 项 ， 得 是 强 刻 建议 你 写 





每 一 个 编译 命令 时 都 加 上 -Wall 选项 。 





习题 


1、 尽 管 编译 器 的 错误 提示 不 够 友好 ， 但 仍然 是 学 习 过 程 中 的 一 个 很 有 用 的 工具 。 你 可 以 像 上 面 
那样 ， 从 一 个 正确 的 程序 开始 每 次 改动 一 小 点 ， 然 后 编译 看 是 什么 结果 ， 如 果 出 错 了 ， 就 尽量 
记 住 编译 器 给 出 的 错误 提示 并 把 改动 还 原 。 因 为 错误 是 你 改 出 来 的 ， 你 已 经 知道 错误 原因 是 什 
么 了 ， 就 可 以 很 容易 地 把 错误 原因 和 错误 提示 信息 对 应 起 来 记 住 ， 这 样 下 次 你 在 毫 无 防备 的 情 
况 下 挤 到 这 个 错误 提示 就 会 很 容易 想到 错误 原因 是 什么 了 。 这 样 反复 练习 ， 有 了 一 定 的 经 验 积 
累 之 后 面 对 编 译 器 的 错误 提示 就 会 从 容 得 多 了 。 




















1. 继续 Hello World 
Als E, 


2. 常量 
3. aK E 


1. 继续 Hello World 











第 2 章 常量 、 变 量 和 表达 式 


1. 继续 Hello World 


在 第 4 节 “ 第 一 个 程 !， 读 者 应 该 已 经 尝试 对 Hello world 程 序 做 各 种 改动 看 编译 运行 结果 ， 
其 EE SCRE INE 有 些 改动 会 影响 程序 的 输出 ， 有 些 改动 则 不 影响 程序 的 输出 ， 
下 面 我 们 总 结 一 下 。 首 先 ， 注 释 可 以 跨行 ， 也 可 以 穿插 程序 之 1， 看 下 面 的 例子 。 
























































































































































例 2.1. 带 更 多 注释 的 Hello World 





; #include <stdio.h> 


PE 
* commenti 
* main: generate some simple output 


m 


: int main (void) 
i { 
printf (/* comment2 */"Hello, world.\n"); /* 
i: comment3 */ 

: return 0; 


d 


























第 一 个 注释 跨 了 由 行 ， 头 尾 两 行 是 表示 注释 的 /* 和 */， ! 国 的 两 行 开头 的 * 号 (Asterisk) 并 没 
有 特殊 含义 ， 只 是 为 了 看 起 来 整齐 ， 这 不 是 语法 规则 而 是 大 家 都 遵守 的 C 代 人 码 风 格 (Coding 
Style) 之 一 。 




































































使 用 注释 需要 注意 两 点 : 


1. 注释 不 能 舰 套 (Nest 使 用 ， 就 是 说 一 个 注释 的 文字 中 不 能 再 出 现 /x* 和 x*/ 了 ， 例 如 /x* 
textl /* text2 */ text3 x*/ 是 错误 的 ， 编 译 需 只 把 /x* textl /* text2 */ 看 成 注释 ， 后 
面 的 text3 */ 无 法 解析 ， 因 而 会 报错 。 


2. 有 的 C 代 码 1! 有 类 似 // comment 的 注释 ， PITE (Slash) 表示 从 这 里 直到 该 行 末 尾 的 
所 有 字符 都 属于 注释 ， 这 种 注释 不 能 跨行 ， 也 不 能 穿插 在 一 行 代码 dl. 这 是 从 C++ 借鉴 
的 语法 ， 在 C99 中 被 标准 化 ， 凡 是 C99 新 增 的 特性 在 本 书 中 都 会 提醒 读者 ， 使 用 这 些 特性 
须 谨 慎 ， 因 为 不 是 所 有 的 C 编 译 器 都 能 很 好 地 支持 C99 标 准 ， 使 用 C89 的 特性 是 比较 保险 
的 。 
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关于 C 语 言 标准 


C 语 言 的 发 展 历史 大 致 上 分 为 三 个 阶段 : Old Style 
C、C89 和 C99。Ken Thompson 和 Dennis Ritchie 发 明 C 语 言 时 有 
很 多 语法 和 现在 并 不 一 样 ， 但 为 了 向 后 兼容 性 (Backward 
Compatibility) ， 这 些 语法 仍然 在 C89 和 C99 中 保留 下 来 了 ， 本 书 
不 使 用 Old Style C， 但 在 必要 的 地 方 会 加 以 说 明 。 C89 是 最 早 
的 C 语 言 规范 ， 于 1989 年 提出 ，1990 年 先 由 ANSI (美国 国家 标准 



























































ff "uel 


(S 














EnA, American National Standards Institute) 1 





AEH ANSI hi 





本 ， 后 来 被 接纳 为 ISO 国际 标准 (ISO/IEC 9899:1990) ， 因 而 有 




















时 也 称 为 C90， 最 经 典 的 C 语 言 教材 [K&R] 就 是 基于 这 个 版 本 

的 ，C89 是 目前 最 广泛 采用 的 C 语 言 标准 ， 大 多 数 编译 器 都 完全 文 
持 C89。C99 标 准 (ISO/IEC 9899:1999) 是 在 1999 年 推出 的 ， 加 
入 了 许多 新 的 特性 ， 但 目前 仍 没有 得 到 广泛 支持 ， 在 C99 推 出 之 后 



























































相当 长 的 一 段 时 间 里 ， 连 gcc 也 没有 完全 实现 C99 的 





所 有 特 




















性 。C99 标 准 详 见 [C99]。 本 书 内 容 以 C89 为 主 ， 在 必要 的 地 方 会 


























说 明 一 下 C99 的 新 特性 ,但 是 不 建议 使 用 。 
C 标 准 的 目的 是 为 了 精确 定义 C 语 言 ， 而 不 是 为 了 教 




















别人 怎么 纺 

















程 ，C 标 准 在 表达 上 追求 准确 和 无 收 义 ， 却 十 分 不 容易 看 























ffi, [Standard Cl 和 [Standard C Library] 是 对 C89 及 其 修订 版 本 的 





























PE CATE ARCO Har), LLCInMERA DATE, DB, 


























参考 [C99 Rationale] 也 有 助 于 加 深 对 C 标 准 的 理解 。 





























tring Literal) ,或 者 简称 字符 串 。 注 意 ， 程 序 的 运行 结果 并 没有 双 引 号 ，printf#JE 








只 是 里 面 的 一 串 字 符 aello，werld.， 因 此 双 引 号 是 字符 串 字 面值 的 界定 符 (Delimiter) , KÆ 
| 号 中 间 的 一 串 字符 才 是 它 的 内 容 。 注 意 ， 打 印 出 来 的 结果 也 没有 \n 这 两 个 字符 ， 这 是 为 什 
第 2 和 “自然 语言 和 形式 语言 "中 提 到 过 ，C 语 言 规 定 了 一 些 转 义 序列 (Escape 
的 \n 并 不 表示 它 的 字面 意思 ， 也 就 是 说 并 不 表示 \ 和 n 这 两 个 字符 本 身 ， 而 


Xu 


ANE? 在 


Sequence) , ix4 















































lo，world.\n" 这 种 由 双 引 号 (Double Quote) 引起 来 的 一 有 











字面 值 





字符 称 为 字符 
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合 起 来 表示 一 个 换行 符 (Line Feed) 。 例 如 我 们 写 三 条 打印 语句 : 























; printf ("Hello, world.\n"); 
: printf ("Goodbye, E 
| peiner (Vervel on Wa) p 




















ISAT AAR AL — AER] ST BB 47 , Ja RAT BB AT. NT TERRE 
at > 以 后 的 例 子 通常 省 略 includae 和 main 这 些 Boilerplate ; 但 读者 在 练习 时 需 


























个 完整 的 程序 才能 编译 通过 。C 标 准 规定 的 转 义 字符 有 以 下 这 些 : 





表 2.1. C 标 准 规定 的 转 义 字符 


\ | 单 引号 (Single Quote ,或 Apostrophe) 
UD C INNEN 
$$ (Alert, BRBeID | 


\al 响 铃 (Alert, 或 Bell) 


分 页 符 (Form Feed) 











H4 (Horizontal Tab) 























央 表 符 (Vertical Tab) 




















































































































在 字符 串 字 面值 中 要 表示 单 引 号 ' 和 问号 ?， 既 可 以 使 用 转 义 序列 和 \? ， 也 可 以 直接 用 字 








出 来 的 














ES 
AE 


加 上 这 些 构成 一 






































符 ' 和 ?， 而 要 表示 \ 或 " 则 必须 使 用 转 义 序列 ， 因 为 \ 字 符 表示 转 义 而 不 表示 它 的 字面 含义 ，" 表 示 
字符 捉 的 Delimiter 而 不 表示 它 的 字面 合 义 。 可 见 转 义 序列 有 两 个 作用 : 一 是 把 普通 字符 转 义 成 
特殊 字符 ， 例 如 把 字母 n 转 义 成 换行 符 ; 二 是 把 特殊 字符 转 义 成 普通 字符 ， 例 如 \ 和 "是 特殊 字 

符 ， 转 义 后 取 它 的 字面 值 。 


C 语 言 规定 了 几 个 控制 字符 ， 不 能 用 键盘 直接 输入 ， 因 此 采用 \ 加 字母 的 转 义 序列 表示 。\a 是 响 
铃 字 符 ， 在 字符 终端 下 显示 这 个 字符 的 效果 是 PC 喇叭 发 出 咬 的 一 声 ， 在 图 形 界面 终端 下 的 效果 
取决 于 终端 的 实现 。 在 终端 下 显示 \b 和 按 下 退 格 键 的 效果 相同 。\f 是 分 页 符 ， 主 要 用 于 控制 打印 
机 在 打印 源 代码 时 提前 分 页 ， 这 样 可 以 避免 一 个 函数 跨 两 页 打印 。\n 和 \r 分 别 表示 Line 
Feed 和 Carriage Return ， 这 两 个 词 来 自 老 式 的 英文 打字 机 ，Line Feed 是 跳 到 下 一 行 ( 进 纸 ， 
喂 纸 ， 有 个 喂 的 动作 所 以 是 feed) , Carriage Return 是 回 到 本 行 开头 〈Carriage 是 卷 着 纸 的 
轴 ， 随 着 打字 慢 慢 左 移 ， 打 完 一 行 就 一 下 子 移 回 最 右边 ) ， 如 果 你 看 过 欧美 的 老 电影 应 该 能 想 
起 来 这 是 什么 。 用 老式 打字 机 打 完 一 行 之 后 需要 这 么 两 个 动作 ，\r\n， 所 以 现在 Windows 上 的 文 
本 文件 用 \n 做 行 分 隔 符 ， 许 多 应 用 层 网 络 协议 (如 HTTP) 也 用 \n 做 行 分 隔 符 ， 而 Linux 和 各 
种 UNIX 上 的 文本 文件 只 用 \n 做 行 分 隔 符 ， 所 以 很 多 初学 者 弄 不 清楚 这 两 个 字符 有 什么 区 别 。 在 
终端 下 显示 和 按 下 Tab 键 的 效果 相同 ， 用 于 在 终端 下 定位 表格 的 下 一 列 ，\v 用 于 在 终端 下 定位 
表格 的 下 一 行 。V 比 较 少 用 ，x 比 较 常 用 ， 以 后 将 “水 平 制 表 符 ”简称 “ 制 表 符 ?或 Tab 。 请 读者 
用 printf 语 句 试 试 这 几 个 控制 字符 的 作用 。 

注意 "coodbye， "末尾 的 空格 ， 字 符 串 字面 值 中 的 空格 也 算 一 个 字符 ， 也 会 出 现在 输出 结果 中 


而 程序 中 别处 的 空格 和 Tab 多 一 个 少 一 个 往往 是 无 关 紧要 的 ， 不 会 对 编译 的 结果 产生 任何 影响 ， 
例如 不 缩 进 不 会 影响 程序 的 结果 ，main 后 面 多 几 个 空格 也 没 影响 ， 但 是 int 和 main 之 间 至 少 要 有 


























































































































































































































































































































































































































































































































































































































corn main (void) 

Ed 

"pranbe0"Heldo world. nmi 
| return (rr 


i} 









































不 仅 空格 和 Tab 是 无 关 紧 要 的 ， 换 行 也 是 如 此 ， 我 甚至 可 以 把 整个 程序 写成 一 行 ， 但 
是 incluae 必 须 单独 占 一 行 : 
































: #include<stdio.h> 
: int main (void) {printf ("Hello, world. ni"); return 0;} 

































































这 样 也 行 ， 但 肯定 不 是 好 的 代码 风格 ， 去 掉 缩 进 已 经 很 影响 可 读 性 了 ， 写 成 现在 这 个 样子 可 读 
性 更 差 。 如 果 编 译 器 说 第 2 行 有 错误 ， 也 很 难 判 断 是 娜 个 语句 有 错误 。 所 以 ， 好 的 代码 风格 要 求 
缩 进 整齐 ， 每 个 语 名 一行， 适当 留 空 行 。 


























































































































fat (Constant) 是 程序 中 最 基本 的 元 素 ， 有 字符 常量 (Character Constant) 、 数 字 常 量 和 枚 
举 常 量 。 枚 举 常量 以 后 再 介绍 ， 现 在 我 们 看 看 如 何 使 用 字符 常量 和 数字 稼 量 : 
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: printf ("character: te\minteger: %d\nfloating point: %f\n", '}', 
34; SMS 






































字符 常量 要 用 单 引 号 括 起 来 ， 例 如 上 面 的 '}' ， 注 意 单 引 号 只 能 括 一 个 字符 而 不 能 像 双 引 号 那样 
括 一 串 字 符 ， 字符 常量 也 可 以 是 一 个 转 义 序列 ， 例如 '\n' ， 这 时 虽然 单 引 号 括 了 两 个 字符 ， 但 
实际 上 只 表示 一 个 字符 。 和 字符 串 字 面值 使 用 转 义 序列 有 一 点 区 别 ， 如 果 在 字符 常量 中 要 表 
示 双 引号 "和 问号 ?， 既 可 以 使 用 转 义 序列 和 \?， 也 可 以 直接 用 字符 "和 ?， 而 要 表示 ' 和 \ 则 必须 
使 用 转 义 序列 。[3 


计算 机 中 整数 和 小 数 的 内 部 表示 方式 不 同 ， 因 而 在 C 语 言 中 是 两 种 不 同 的 类 型 ， 例 如 上 例 
的 34 和 3.14 ， 小 数 在 计算 机 术语 中 称 为 浮 点 数 (Floating Point) 。 这 个 语句 的 输出 结果 和 Hello 
World 不 太一 - 样 ， SAFER "character: $cNninteger: %d\nfloating point: sf\n" 并 不 是 按 原 样 


打印 输出 的 ， 而 是 输 出 成 这 样 : 
































































































































































































































: character: } 
"Integer: 34 
E ie ILE sae; jolene Sio did 

















printf 中 的 这 个 字符 串 称 为 格式 化 字符 串 (Format String) ， 它 规定 了 后 面 几 个 数据 以 何 种 格式 
插入 到 这 个 字符 串 中 ，% 号 (Percent Sign) 后 面 加 个 字母 ce、d、f 在 printf 中 分 别 解释 成 字符 
型 、 整 型 和 浮 点 型 的 转换 说 明 (Conversion Specification) ， 分 别 用 后 面 的 三 个 常量 来 替换 它 
们 ， 也 就 是 说 它们 只 是 在 格式 化 字符 串 中 占 个 位 置 ， 并 不 出 现在 最 终 的 打印 结果 中 ， 这 种 用 法 
通常 叫做 占 位 符 (Placeholder) 。 这 也 是 一 种 字面 意思 与 真实 意思 不 同 的 情况 ， 但 是 和 转 义 序 
列 又 有 区 别 : 转 义 序列 是 编译 需 在 处 理 字符 串 字 面值 时 转 义 的 ， 而 占 位 符 是 由 printf 解 释 的 ， 

格式 化 字符 串 仿 : 际 包含 的 字 有 符 是 character: sc 换行 integer: sd 换行 ELoating point: $f 换行 ， 

其 中 的 sc 仍然 是 字符 串 中 的 两 个 普通 字符 ， 而 当 字 符 串 传 给 printf 处 理 时 ，printf 却 不 把 它 当 成 是 
普通 字符 ， 而 是 解释 成 占 位 符 。 事 实 上 前 面 例子 中 的 "Helloeo，worla.\n" 也 是 格式 化 字符 串 ， 只 
不 过 其 中 不 包含 占 位 符 。 


有 了 时候 不 同类 型 的 数据 很 容易 弄 混 ， 例 如 "5"、'5'、5， 如 果 你 注意 了 Delimiter 就 会 很 清楚 ， 第 一 
个 是 字符 串 ， 第 二 个 是 字符 ， 第 三 个 是 整数 ， 看 了 下 文 你 很 快 就 会 知道 为 什么 一 定 要 严格 区 分 
它们 之 间 的 差别 了 。 
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习题 
EE eee : 么 表示 一 个 % 字 符 ? 写 个 
小 程序 试验 一 





























[3] 读者 可 能 会 奇怪 ， 为 什么 需要 规定 一 个 转 义 序列 \? 呢 ? 因为 C 语 言 规定 了 一 些 三 连 符 











(Trigraph) ， 在 某 些 特 殊 的 终端 上 缺少 某 些 字 符 ， 需 要 用 Trigraph 输 入 ， 例 如 ??= 表 
示 #。Trigraph 极 不 常用 ， 介 绍 这 个 只 是 为 了 让 读者 理解 C 语 言 规定 转 义 序列 的 作用 ， 即 特殊 字 
符 转 普通 字符 ， 普 通 字 符 转 特殊 字符 ，\? 属 于 前 者 。 极 不 常用 的 C 语 法 在 本 书 中 通常 不 会 介绍 。 














3. 变量 





















































变量 (Variable) 是 编程 语言 中 最 重要 的 概念 之 一 ， 变 量 是 计算 机 存储 器 中 的 一 块 命名 的 空间 ， 
可 以 在 里 面 存储 一 个 值 (Value) ， 存 储 的 值 是 可 以 随时 变 的 ， 比 如 这 次 存 个 字符 'a' 下 次 存 个 
字符 'b' ， 正 因为 变量 的 值 可 以 随时 变 所 以 才 叫 变量 。 


澡 量 有 不 同 的 类 型 ， 因 此 变量 也 有 不 同 的 类 型 ， 变 量 的 类 型 也 决定 了 它 所 占 的 存储 空间 的 大 






































































































































小 。 例 如 ， 以 下 语句 定义 了 四 个 变量 frea、bop、jimmy 和 toml 齐 ， 它 们 的 类 型 分 别 是 字符 型 、 整 
Al. BRA: 

















‘char fred; 
aum bob; 

: float jimmy; 
: double tom; 
































浮 点 型 有 
Ai 



































两 种 ，f1oat 是 单 精度 浮 点 型 ，doup1le 是 双 精 度 浮 点 型 ， 它 们 之 间 的 区 别 和 转换 规则 我 
们 将 在 第 15 E 数据 类 型 详解 介绍 ， 在 随后 的 儿童 中 我 们 只 使 用 aoub1e 类 型 ， 上 一 市 介绍 的 常 
量 3.14 应 该 看 作 aouble 类 型 的 带 量 ，printf 的 st 也 应 该 看 作 格式 化 double 类 型 的 占 位 符 。 给 变量 
起 名 不 能 太 随意 了 ， 以 上 四 个 变量 的 名 字 就 不 够 好 ， 我 们 猜 不 出 这 些 变量 里 可 能 存 的 是 关于 什 
么 的 数据 。 而 像 下 面 这 样 起 名 就 很 好 : 






































































































































| char firstletter; 
: char lastLetter; 
: int hour, minute; 








我 们 可 以 猜 得 到 这 些 变 量 是 用 来 存 什么 的 ， 前 两 个 变量 的 取 值 范围 应 该 是 'A'-'z' 或 'a'-'z'， 

变量 pour 的 取 值 范围 应 该 是 0-23， 变 量 minute 的 取 值 范围 应 该 是 0-59。 所 以 ， 应 该 给 变量 起 有 
意义 的 名 字 。 从 这 个 例子 中 我 们 也 看 到 两 个 同样 类 型 的 变量 (nourfllminute) 可 以 定义 在 同一 
行 。 需 要 注意 ， 变 量 的 命名 有 一 定 限制 ， 规 定 必 须 以 字母 或 下 划 线 ” (Underscore) 开头 ， 后 面 
可 以 跟 若 干 个 字母 、 数 字 、 下 划 线 ， 但 不 能 有 其 它 字 符 。 例 如 这 些 是 合法 的 变量 
名 : Abc、_abc 、_123。 但 这 些 是 不 合法 的 变量 名 : 3abc、abs。 其 实 这 个 规则 不 仅 适 用 于 变 
量 名 ， 也 适用 于 所 有 可 以 由 程序 员 起 名 字 的 语法 元 素 ， 例 如 以 后 要 讲 的 函数 名 、 窑 定义、 结构 
体 成 员 名 等 等 ， 在 C 语 言 中 这 些 统称 为 标识 符 (Identifier) 。 


另外 要 注意 ， 表 示 类 型 的 char、int、float、adouble 等 等 虽然 符合 上 述 规则 ， 但 也 不 能 用 作 标 
识 符 。C 语 言 用 这 些 单 词 做 特殊 用 途 ， 如 果 你 起 个 变量 名 也 叫 这 个 就 会 让 编译 各 无 法 区 分 ， 所 
以 C 语 言 规 定 了 一 些 单词 不 允许 用 作 标 识 符 ， 这 些 单词 称 为 关键 字 (Keyword) 或 保留 字 
(Reserved Word) 。 通 常用 于 编程 的 文本 编辑 器 都 会 高 亮 显 示 (Highlight) 这 些 关 键 字 ， 所 
以 只 要 小 心 一 点 通常 不 会 当 作 标 识 符 误 用 了 。C99 规 定 的 关键 字 有 : 











































































































































































































































































































auto break case char const continue default do double 

else enum extern float for goto if inline int long 

register restrict return short signed sizeof static struct switch typedef 
union unsigned void volatile while _Bool Complex _Imaginary 


还 有 一 点 要 注意 ， 一 般 来 说 应 避免 使 用 以 下 划 线 开头 的 标识 符 ， 以 下 划 线 开头 的 标识 符 只 要 不 
和 C 语 言 关键 字 冲 突 的 都 是 合法 的 ， 但 是 往往 被 编译 器 用 作 一 些 功能 扩展 ，C 语 言 库 的 实现 也 定 













































































义 了 很 多 以 下 划 线 开头 的 名 字 ， 很 容易 造成 名 字 冲 突 ， 所 以 除非 你 对 编译 器 和 C 语 言 库 特别 清 
楚 ， 一 般 应 避免 使 用 这 种 标识 符 。 
请 记 住 : 理解 一 个 概念 不 是 把 定义 背 下 来 就 行 了 ， 一 定 要 理解 它 的 外 延 和 内 洱 ， 也 就 是 什么 情 


况 属于 这 个 概念 ， 什 么 情况 不 属于 这 个 概念 ， 什 么 情况 虽然 属于 这 个 概念 但 作为 一 种 最 佳 实践 
(Best Practice) 应 该 避免 这 种 情况 ， 这 才 算 是 真正 理解 了 。 














































































































































































































[4] 更 准确 地 说 是 声明 了 四 个 变量 ， 定义 (Definition) 和 声明 (Declaration) 之 间 的 关系 是 : 4E 
义 是 声明 的 一 种 ， 如 果 一 个 声明 要 求 分 配 存 储 空 间 ， 则 称 为 定义 。 在 下 一 章 我 们 会 看 到 哪些 函 
数 声明 同时 也 是 定义 ， MEREEN 以 后 我 们 还 会 看 到 哪些 变量 声明 不 分 配 存储 空间 因而 不 
是 定义 。 接 下 来 几 章 的 例子 中 声明 的 变量 都 是 分 配 存储 空间 的 ， 都 用 "定义 "这 个 词 。 
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4. 赋值 
变量 和 表达 式 






































定义 了 变量 之 后 ， 我 们 要 把 值 存 到 它们 的 存储 空间 里 ， 可 以 用 赋值 (Assignment) 语句 实现 : 














Meher eiroet letter; 
‘int hour, minute; 


Peuestiletter = ute /* give firstletter the value 'a' */ 
HEC = iig /* assign the value 11 to hour */ 
: minute = 59; /* set minute to 59 */ 


























TERR, SEHE ERENER, mE DCA BURY xe SAAD, ZH 





























道 firsetletter、 hour 和 minute 是 变量 名 , 代表 一 块 存储 空 X[R], D 面 使 用 时 才 知 道 < 哪里 找 这 个 

























































































变量 的 存储 空间 。 还 要 注意 ， 这 里 的 和 号 不 表示 数学 里 的 相 车 关 系 ， 和 1+1=2 的 等 号 是 不 同 的 ， 
































这 里 的 等 号 表示 赋值 。 在 数学 上 不 会 有 i=i+1 这 种 等 式 成 立 ， 而 在 C 语 言 中 ， 这 个 语句 表示 把 变 
量 i 的 存储 空间 中 的 值 取出 来 ， 再 加 上 1， 得 到 的 结果 再 存 回 i 的 存储 空间 中 。 再 比如 ， 在 数学 


上 a= 










































































7 和 7=a 是 一 样 的， 而 在 C 语 言 中 ， 后 者 是 不 合法 的 。 总 结 一 下 : 定义 一 个 变量 ， 就 是 分 配 



























































2m ET 就 是 把 一 个 值 存 到 了 这 块 存储 空间 中 。 变 量 的 定 


义 和 贱 值 纪 可 以 一 步 完 成 ， 这 称 为 变量 的 初 始 化 (Initialization) ， 例 如 要 达到 上 面 代码 的 效果 
























































也 可 以 这 样 写 : 
Zchoneturstlicber vale 
是 hour = 11, minute = 59; 





在 初始 化 语句 中 ， 等 号 右边 的 值 叫 做 Initializer， 例 如 上 面 的 "a'"、11 和 59。 注 意 ， 初 始 化 是 一 种 















































特殊 的 变量 定义 语句 ， 而 不 是 一 种 峰值 语句。 就 目前 来 看 ， 先 定义 一 个 变量 再 给 它 赋 值 和 定义 
这 个 变量 的 同时 给 它 初 始 化 所 达到 的 效果 是 一 样 的 ， 事实 上 C 语 言 的 很 多 语法 规则 既 适 用 于 冉 值 
也 适用 于 初始 化 ， 但 在 以 后 的 学 习 中 你 也 会 了 解 到 它们 之 间 的 不 同 ， 请 在 学 习 过 程 中 注意 总 结 
赋值 和 初始 化 的 相同 之 处 和 不 同 之 处 。 如 果 在 纸 上 " 跑 "一 个 程序 (每 个 学 编程 的 人 都 要 练 这 项 基 



























































































































































值 ， 


















































本 功 ) ， 可 以 用 一 个 框 表示 一 个 变量 的 存储 空间 ， 在 框 的 外 边 标 上 变量 名 ， 在 框 里 存 上 它 的 














这 也 是 本 书 常用 的 表示 方 法 ， 如 下 图 所 示 。 


图 2.1. 在 纸 上 表 示 变 量 


firstLetter hour minute 
































us 可 以 用 不 同类 型 的 变量 ， 这 样 可 以 提醒 你 给 变量 赋 的 值 必须 符合 它 的 类 


































































































。 如 果 所 赋 的 值 和 变量 的 类 型 不 符 会 导致 编译 需 报 警 或 报错 (这 是 一 种 语义 错误 ) ， 例 如 : 
— Cu WM III 
? Iowa = Ue. /* WRONG ! */ 


: minute = "59"; /* WRONG !! */ 















































注意 第 3 个 语句 ， 把 "59" 赋 给 minute 看 起 来 像 是 对 的 ， 但 是 类 型 不 对 ， 字 符 串 不 能 赋 给 整 型 变 




















量 。 既 然 可 以 为 变量 的 存储 空间 赋值 ， 就 应 该 可 以 把 值 取 出 来 用 ， 现 在 我 们 取出 这 些 变量 的 值 
用 printf 打 印 : 



















































































也 就 是 说， 变量 名 除了 用 在 等 号 左边 表示 赋值 之 外 ， 用 在 别 的 地 方 都 表示 把 它 的 值 取出 来 替换 
在 那里 。 在 计算 机 中 不 同类 型 的 变量 所 占 的 存储 空间 大 小 是 不 同 的 ， 变 量 的 最 小 存储 单位 是 字 
T (Byte) ， 在 C 语 言 中 char 型 变量 的 存储 空间 是 一 个 字 市 ， 其 它 类 型 的 变量 占 多 少 个 字 市 在 不 
同 平台 上 有 不 同 的 规定 ， 以 后 再 详细 讨论 。 


















































































































































5. 表达 式 


HH 量 和 变量 都 可 以 参与 加 减 乘 除 运算 ， 例如 1+1、 hour-1、 hour * 60 + minutes minute/ 60%. 

































































这 里 的 +-*/ 称 为 运算 符 (Operator) ， 而 参与 运算 的 变量 和 常量 称 为 操作 数 (Operand) ， 上 
面 四 个 由 运算 符 和 操作 数 所 组 成 的 算式 称 为 表达 式 (Expression) 。 


和 数学 上 规定 的 一 样 ，hour * 60 + minute 这 个 表达 式 应 该 先 算 乘 再 算 加 ， 也 就 是 说 运算 符 是 
有 优先 级 (Precedence) 的 ,“* 和 /是 同一 优先 级 ，+ 和 -是 同一 优先 级 , “和 /的 优先 级 高 于 + 和 -。 
对 于 同一 优先 级 的 运算 从 左 到 右 计 算 ， 如 果 不 希 望 按 默认 的 优先 级 运算 则 要 加 括号 
(Parenthesis) 。 例 如 (3+4) *5/6， 应 先 算 3+4 ， 再 算 *5 FREE. 


我 们 前 面 讲 了 打印 语句 、 变 量 定 义 语 铅 、 赋 值 语句， 在 任意 一 个 表达 式 后 面 加 个 ;号 也 成 为 一 个 
表达 式 语句， 例如 : 


























































































































































































































































































































但 是 这 个 语 铝 在 程序 中 起 不 到 任何 作用 ， 把 hour 的 值 和 minute 的 值 取出 来 加 乘 ， 得 到 的 计算 结 
果 却 没有 保存 ， 白 算 了 一 通 。 事 实 上 赋值 语句 就 是 一 种 表达 式 语句 ， 因为 等 号 也 是 种 运算 
符 ， 例 如 : 

























































































: int total minute; 
LOL Minne = hour oon minute, 












































这 个 语句 就 很 有 意义 ， 把 计算 结果 保存 在 另 一 个 变量 total_minute 里 ， 等 号 的 优先 级 比 + 和 * 都 
要 低 ， 所 以 先 算 出 等 号 右边 的 结果 然后 才 做 赋值 操作 。 任何 一 个 表达 式 都 能 求 出 一 个 直 来 ， 表 
达 式 hour * 60 + minute 能 算出 个 值 来 ， 那个 整个 赋 He total minute = hour * 60 + 
minute 的 值 是 什么 呢 ?C 语 言 规 定 等 号 运算 符 的 计算 结果 就 是 等 号 左边 被 赋予 的 那个 值 。 等 号 还 
有 一 个 和 +-% 不 同 的 特性 ， 如 果 一 个 表达 式 中 出 现 多 个 等 号 ， 不 是 从 左 到 右 计 算 而 是 从 右 到 左 计 
算 ， 例 如 : 























































































































































































































“ink rotal minute, Coral; 
obs = total minute = hour * 60 + minute; 




































































计算 顺序 是 先 算 hour * 60 十 e F 然后 算 右 边 的 等 号 ， 就 是 把 hour * 60 + 
minutely} AiR RZ Att otal_ minute, 这 站 结果 同时 也 是 整个 表达 式 total_minute = hour * 60 
+ minute 的 值 ， 再 算 左 边 的 等 F, 把 这 个 值 由 给 变量 rotal 。 同 样 优先 级 的 运算 符 是 从 左 到 右 计 
算 还 是 从 右 到 左 计 算 ， 这 称 为 运算 符 的 结合 性 (Associativity) 。+-%% 是 左 结合 的 ， 等 号 是 右 结 


合 的 。 


现在 我 们 把 常量 、 变 量 、 表 达 式 和 语句 统一 起 来 了 : 常量 可 以 赋值 给 变量 ， 也 可 以 和 变量 、 运 
算 符 P uc 大 式 ， 最 简单 的 表达 式 由 单个 常量 或 变量 组 成 ， 任何 表达 式 祁 有 一 个 值 ， 表达 
式 可 以 加 个 ; renee 以 前 我 们 在 程序 中 的 很 多 地 方 使 用 背 量 或 变量 ， 其 实 这 些 地 方 
也 可 Sie 大 式 。 例 如 ， 我 们 可 以 这 样 写 : 























































































































7 























































































































S x 















































| total minute = hour * 60 + minute; 
peime (Vl el is $d minutes after 00:00\n", hour, minute, 
: total minute); 


一 


也 可 以 写 得 更 简洁 : 




















!printf("$d:$d is $d minutes after 00:00\n", hour, minute, hour * 
: 60 + minute); 
































这 个 语句 的 执行 顺序 是 : 先 求 表达 式 的 值 ， 然 后 printf 把 表达 式 的 值 打印 出 来 。printf 可 以 打印 表 
达 式 ， 表 达 式 不 仅 可 以 是 单个 的 常量 变量 也 可 以 是 一 个 算式 ， 第 二 条 语句 的 写法 就 是 这 两 条 规 
则 的 组 合 (Composition) 。C 语 言 规定 了 一 组 语法 规则 ， 只 要 符合 它 的 规则 ， 就 可 以 写 出 任意 
复杂 的 组 合 ， 比 如 以 下 一 条 语句 同时 完成 了 计算 、 赋 值 和 打印 的 功能 : 


























































































































; printf("%d:%d is sd minutes after 00:00\n", hour, minute, 
: total_minute = hour * 60 + minute); 























理解 组 合 这 个 概念 是 理解 语法 规则 的 关键 所 在 ， 正 因为 可 以 对 语法 规则 进行 任意 组 合 ， 所 以 我 
门 才 可 以 用 简单 的 和 常量、 变量、 表达 式 、 语 句 搭 建 出 任意 复杂 的 程序 ， 以 后 我 们 学 习 新 的 语法 
规则 时 会 进一步 体会 到 这 一 点 。 从 上 面 的 例子 可 以 看 出 ， 表 达 式 不 宜 过 度 组 合 ， 耕 则 会 给 阅读 
和 调试 带 来 困难 。 


我 们 看 到 等 号 的 右边 可 以 是 任意 组 合 的 表达 式 ， 但 要 注意 等 号 左边 不 能 是 任意 组 合 的 表达 式 ， 
因为 等 号 左边 表示 的 不 是 一 个 值 而 是 一 个 存储 位 置 ， 例 如 下 面 的 赋值 语句 是 错误 的 : 

















































































































































































































Ed Age Eo ee 


这 是 等 号 运算 符 和 +-*/ 运 算 符 的 又 一 个 显著 不 同 。 等 号 左边 表示 存储 位 置 ， 称 为 左 值 
(lvalue) 。 等 号 右边 表示 要 存储 的 值 ， 可 以 是 任意 组 合 的 表达 式 ， 所 以 通常 所 说 的 表达 式 的 值 
也 称 为 右 值 (rvalue) 。 

关于 整数 除法 运算 有 一 点 特殊 之 处 : 



























































































































































| minute =— 59); 
p omae exel evel Sel Inoue me ou mi / 90) 5 























执行 结果 是 11 and 0 hours， 也 就 是 说 59/60 得 到 0， 这 是 因为 两 个 整数 相 除 的 结果 仍 为 整数 ， 
并 且 总 是 舍 去 小 数 部 分 ， 即 使 小 数 部 分 是 0.98 也 要 舍 去 。 疝 下 取 整 的 运算 称 为 Floor ， 用 数学 符 
号 。 表示 ,与 之 相对 的 ， 向 上 取 整 的 运算 称 为 Ceiling， 用 数学 符号 ”表示 。 例 如: 



































































































































59/60 =0 
59/60 =1 
-59/60 =-1 
-59/60 =0 






































C 语 言 定 义 的 取 整 运算 既 不 是 Floor 也 不 是 Ceiling， 无 论 操 作 数 是 正 是 负 总 是 把 小 数 部 分 截断 
(Truncate) ， 所 以 当 操作 数 为 正 的 时 候 相 当 于 Floor ， 当 操作 符 为 负 的 时 候 相 当 于 Ceiling。 回 
到 先前 的 例子 ， 要 得 到 更 精确 的 结果 可 以 这 样 : 













































































ove (Ua hours and %d percent of an hour\n", hour, minute * 100 
Ef 60) F 
; printf("%d and %f hours\n", hour, minute / 60.0); 















































第 二 个 printf 中 ， 表 达 式 是 minute / 60.0，60.0 是 一 个 浮 点 数 ，/ 运 算 都 要 求 左 右 两 边 的 操作 数 
类 型 一 致 ， 而 现在 并 不 一 致 。 事 实 上 C 语 言 定 义 一 系列 隐 式 类 型 转换 (Implicit Conversion) 规 

























































































则 ， 在 这 里 编译 右上 自动 把 左边 的 minute 也 转换 成 浮 点 数 来 计算 ， 得 到 的 值 仍然 是 浮 点 数 ， 在 格 
式 化 字符 串 中 应 该 用 sf 占 位 符 。 本 来 编程 语言 作为 一 种 形式 语言 要 求 有 简单 而 严格 的 规则 ， 扬 
动 类 型 转换 规则 不 仅 很 复杂 ， 而 且 使 C 语 言 的 形式 看 起 来 也 不 那么 严格 了 ，C 语 言 这 么 设计 是 为 
了 书写 程序 简便 而 做 的 折衷 ， 有 些 事 情 编 译 避 可 以 自动 做 控 ， 程序 员 就 不 必 每 次 都 写 一 堆 繁 正 
的 代码 。 然 而 对 初学 者 来 说 这 是 个 坏 消 息 ， 类 型 转换 规则 非常 不 容易 掌握 ， 在 本 书 的 前 几 间 里 
将 会 避免 使 用 ， 等 后 面 讲 了 相关 的 基础 知识 后 再 集中 解决 这 个 问题 。 


习题 


1、 假 设 变量 x 和 n 是 两 个 正 整 数 ， 我 们 知道 x/n 这 个 表达 式 的 结果 是 取 Floor， 例 





















































































































































































































































































































































如 x 是 17，n 是 4， 则 结果 是 4。 如 果 硕 望 结 果 取 Ceiling 应 该 怎么 写 表达 式 呢 ? H 
如 x 是 17，n 是 4， 则 结果 





























是 5， 而 x 是 16 ，n 是 4， 则 绪 采 是 4。 











6. 字符 类 型 与 字符 编码 
第 2 章 常量 、 变 量 和 表达 式 
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d “Es 编程 语言 " 讲 过 ， 计 算 机 之 所 以 能 处 理 符号 ， 是 因为 符号 在 计算 机 内 部 也 
TE 每 个 字符 在 计 算 机 内 部 都 用 一 个 整数 来 表示 ， 称 为 字符 编码 (Character 
Encoding) ， 目 前 大 部 分 平台 通用 的 是 ASCI 码 (American Standard Code for Information 
Interchange , 美国 信息 交换 标准 码 ) ， 详 见 图 A.1 “ASCII 码 表 "。 表 中 每 一 栏 的 最 后 一 列 是 字 
符 ， 前 三 列 分 别 是 用 十 进 制 (Dec) 、 十 六 进 制 (Hx) 和 八进制 (Oct) 表示 的 字符 编码 ， 有 关 
各 种 进 制 之 间 的 换算 以 后 再 讲 ， 从 十 进 制 那 一 列 可 以 看 出 ASCII 码 的 取 值 范围 是 0~127。 表 中 的 
(RA FA 符 是 不 可 见 字符 (Non-printable Character) 和 空白 字符 (Whitespace) [时 ， 不 能 
Bla 这样 把 字符 本 身 填 在 表 中 ， 而 是 要 用 一 个 名 字 来 表示 ， 例 如 cR(carriage return) LF (NL 
line feed, newline) y DEL 等 等 。 作为 练习 ， 请 读者 查 查 一 查 2.1 “CGC 标准 sya ae” 1 的 
字符 都 在 ASCII 码 表 的 什么 位 置 。 


回 到 刚才 的 例子 ， 在 ASCII 码 中 字符 'a 是 97， 字 符 b 是 98。'a'+1 这 个 表达 式 ， 根据 隐 式 类 : 型 转 
换 规则 要 把 字符 型 转 成 整 型 再 做 计算 ， 也 就 是 把 'a' 按 ASCII 码 转 成 整 型 的 7， 然 后 加 1， 得 

到 98， 现 在 表达 式 的 值 是 一 个 整 型 ， 而 printf 却 以 sc 的 格式 打印 它 ， 于 是 print 了 | xA MERC 
作 ASCII 码 来 解释 ， 打 印 出 相应 的 字符 'b'。 


之 前 我 们 说 “ 整 型 "是 指 int 型 ， 而 现在 我 们 知道 cnar 型 本 质 上 就 是 整数 ， 只 不 过 取 值 范围 比 int 型 
小 ， 所 以 以 后 我 们 把 char 型 和 int 型 统称 为 整数 类 型 (integer e 或 简称 整 型。 其 实 还 有 几 
种 我 们 没 学 到 的 类 型 也 属于 整 型 ， 我 们 将 在 多 至 总 结 一 下 整 型 包括 哪些 类 型 。 


在 ASCII 码 表 中 ， 字 符 'a'~'z'"、'A'~'Z'、'0'~'9' 的 ASCII 码 都 是 连续 的 ， 例如 a+1 和 "b 的 值 相 
等 ，'0'+9 和 '9' 的 值 相 等 。 注 意 '0'~'9' 的 ASCII 码 是 十 六 进 制 的 30~39， 这 是 字符 型 '0'~'9' 和 整 
数 0~9 的 区 别 。 


字符 也 可 以 用 ASCIl 码 的 转 义 序列 表示 ， 这 种 表示 可 以 用 在 字符 常量 或 字符 串 字 面值 中 ， 

如 \0' 表 示 NUL 字 符 ，"\11' 或 \x9' 表 示 Tab 字 符 ，"\11" 或 \x9" 表 示 由 Tab 字 符 组 成 的 字符 串 。 这 种 
转 义 序列 由 \ 加 上 1~3 个 八进制 数字 组 成 ,或 者 由 \x (大 写 的 X 也 可 以 ) 加 上 1~2 个 十 六 进 制 数字 
组 成 。 














































































































































































































































































































































































































































































































































































































































































































































































































[5] Whitespace 在 不 同 的 上 下 文中 有 不 同 的 含义 ， 在 C 语 言 中 Whitespace 定 义 为 空格 、 水 




































































平 Tab、 算 直 Tab、 换 行 和 分 页 符 以 及 这 些 字符 的 某 些 组 合 ， 本 书 在 使 用 Whitespace 这 个 词 时 会 
明确 说 明 指 的 是 哪些 字符 。 
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在 数学 中 我 们 用 过 sin 和 In 这 样 的 函数 ， 例 如 sin(TW2)=1，lIn1=0 等 等 ， 在 C 语 言 中 也 可 以 使 用 这 
JH sr. 

































































i Jsinclude <math.h> 
: #include <stdio.h> 


: int main (void) 


K 


i double pi = 3.1416; 
: printf ("sin(pi/2)=%f\nlnl=%f\n", sin(pi/2), 
| ee Ee) 


return 0; 























: $ gcc main.c Im 
PS of Ao Owe 

! sin(pi/2)=1.000000 
: 1n1-0.000000 


















































在 数学 中 使 用 函数 有 时 候 书写 可 以 省 略 括号 ， 而 C 语 言 要 求 一 定 要 加 上 插 号 ， 例 如 sin (pi/2) 这 
种 形式 。 在 C 语 言 的 术语 中 ，pi/2 是 参数 (Argument) ，sin 是 函数 

(Function) , sin(pi/2) 是 函数 调用 (Function Call) 。 这 个 函数 调用 在 我 们 的 printf 语 句 
处 于 什么 位 置 呢 ? 通 过 第 5 D “表达 式 ” 的 学 习 我 们 知道 ， 这 应 该 是 放 表 达 式 的 位 置 。 因 此 ， 了 
数 调 用 也 是 一 种 表达 式 。 这 个 表达 式 由 函数 调用 运算 符 (也 就 是 括号 ) 和 两 个 操作 数组 成 ， 操 
作 数 sin 称 为 Function Designator， 是 函数 类 型 (Function Type) 的 ， 操 作 数 pi/2 是 aoub1le 型 
的 。 这 个 表达 式 的 值 就 是 sin (pi/2) 的 计算 结果 ， 在 C 语 言 的 术语 中 称 为 函数 的 返回 值 (Return 


Value) 。 


现在 我 们 可 以 完全 理解 printf 语 名 了: 原来 printf 也 是 一 个 函数 ， Sn M de 

数 ， 第 一 个 参数 是 格式 化 字符 串 ， 是 字符 串 类 型 的 ， 第 二 个 和 第 三 个 参数 是 要 打印 的 值 ， 是 浮 

点 型 的 ， 整 个 printf 就 是 一 个 浮 数 调用 ， 也 就 是 一 个 表达 式 ， 表 此 printf 语 名 也 是 表达 式 语句 的 
一 种 。 由 于 表达 式 可 以 传 给 printf 做 参数 ， 而 sin (pi/2) 这 个 函数 调用 就 是 一 个 表达 式 ， 所 以 根 
据 组 合 规 则 ， 我 们 可 以 把 sin 调 用 套 在 printf 调 用 里 面 ， 同 理 1og 调 用 也 是 如 此 。 旦 是 erintf 感 觉 
不 像 一 个 数学 函数 ， 为 什么 呢 ? 因为 像 sin 这 XPP PRB 我 们 传 进去 一 个 参数 会 得 到 个 返回 值 ， 
我 们 用 sin 函 数 就 是 为 了 用 它 的 返回 值 ， 至 于 printf， 我 们 并 不 关心 返回 值 事实 上 EUER XR E 
值 ， 表 示 实 际 打印 的 字符 数 ) ， 我 们 用 printz 不 是 为 了 用 它 的 返回 值 ， la 利用 它 所 产生 

的 副作用 (Side Effect) -pje C 语 言 的 函数 可 以 有 Side Effect， 这 一 点 是 它 和 数学 函数 在 
概念 上 的 根本 区 别 。 


Side Effect 这 个 概念 也 适用 于 运算 符 组 成 的 表达 式 。 比 如 a + p 这 个 表达 式 也 可 以 看 成 一 个 函数 
调用 ， 运 算 符 + 是 一 个 函数 ， 它 的 两 个 参数 是 as 和 b， 返 回 值 是 两 个 参数 的 和 ， 传 入 两 个 参数 ， 得 



















































































































































































































































































































































































































































































到 一 个 返回 值 ， 并 没有 产生 任何 Side Effect。 而 赋值 运 入 
传 入 两 个 参数 as 和 b 分 别 做 左 
既是 pb 的 值 也 是 as 的 值 ， 但 除 此 之 外 还 产生 了 Side Effect, 
单元 里 的 数据 或 者 做 输入 或 输出 操作 ， 











b 这 个 表达 式 看 成 函数 调用 ， 



































回想 一 下 我 们 的 学 习 过 程 ， 














































































































是 表达 式 语 名 的 一 种 ， 一 开始 我 们 认 


























守 是 产生 Side Effect 的 ， 如 果 把 。= 

， 返 回 值 就 是 所 赋 的 值 ， 
就 是 的 值 被 改变 了 ， 改 变 计算 机 存储 
这 些 都 算 Side Effect。 


武 值 是 一 种 语句 ， 后 来 学 了 表达 式 ， 我 们 说 赋值 语句 
A FTAA, dE itprint eth ie 









































达 式 语句 的 一 种 。 随 着 我 介 
































习 的 过 程 总 是 这 样 ， 初 学 














随 着 一 步 步 学 习 ， 在 理解 原 有 概念 的 基础 上 不 断 纠正 ， 不 断 泛 化 (Generalize) 。 
的 ， Hc eee ohh 后 来 接触 了 分 

原来 的 整数 和 
就 泛 化 为 实数 。 坦 白 
从 段 ， 到 后 面 的 章节 
































都 会 逐步 纠正 的 。 











着 一 开始 接触 的 REBAAU 





类 型 的 语句 统一 成 一 种 语句 了 。 学 
: 格 意义 上 说 是 错 的 ， 但 是 很 容易 理解 





















































老师 说 ， 小 数 不 能 减 大 数 ， 其 实 这 
数 ， 原 来 的 正 数 和 负数 的 概念 
分 数 的 概念 就 谤 化 为 有 理 数 ， 再 上 高 
说 ， Te 但 这 上 





























就 这 化 为 和 ea 的 整 
























































现在 也 可 以 详细 解释 程序 第 一 行 # 号 WA Sign, 
个 incluae 的 确切 含义 了 ， 它 后 面 写 在 
(Header File) ， 其 中 描述 了 我 们 程 



































Number Sign 或 Hash Sign) 后 面 加 
义 件 名 ， 称 为 头 文 件 
就 必须 包 














2 e 中 的 









































比如 上 一 年 级 
































售 stdio.h， 要 使 用 数学 函数 就 必须 包 合 























不 用 就 不 必 包 含 任何 头 文 

















件 ， 例如 写 个 程序 int main(void) {int a;a=2;return 0;}, 不 需要 包含 头 文 伯 
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/上 











o> 






























































过 ， 当 然 这 个 程序 什么 也 做 不 了 。 


T s gcc 命 令 行 必须 加 -lm 选项 ， 
，-1lm 选 项 告诉 编译 髓 

过 函数 (例如 printf) 位 于 1 
加 -1c 选 项 ， See 
HU EX ZA ATLA , La EZ 


使 用 math n PAY BORA ku 
libm.so 库 文 件 中 (通常 在 
要 到 这 个 库 文件 里 找 。 本 书 用 到 全 



























































P 
d 使 用 lipc NEBR 
是 gc 








gcc 默 认 的 。 关 于 头 文件 和 函数 库 














可 以 编译 通 


因为 数学 函数 位 

们 程序 中 用 到 的 数学 函数 
ibc.so 库 文件 中 ， 以 后 称 
J 








2. 自 定义 函数 





第 3 章 简单 函数 


2. Ae LER AL 


目前 为 止 我 们 都 在 用 现 有 的 系统 函数 ， 但 我 们 也 可 以 定义 自己 的 函数 来 用 ， 事 实 上 我 们 已 经 这 
么 做 了 : 我 们 定义 了 main 这 个 浮 数 。main 逊 数 的 特殊 之 处 在 于 执行 程序 时 它 自动 被 系统 调用 ， 
系统 就 认 准 了 “main” 这 个 名 字 ， 除 了 名 宁 特 殊 之 外 ，main 阴 数 和 别 的 函数 没有 区 别 。 通 

过 main 函 数 的 定义 我 们 已 经 了 解 函 数 定义 的 语法 了 : 




































































| 返回 值 类 型 函数 名 (参数 列表 ) 











语句 列表 





























其 中 函数 名 的 命名 规则 也 遵循 标识 符 的 命名 规则 (ILES S p “变量 ") ,注意 自己 定义 的 函数 不 
能 跟 main 函 数 重 名 。 由 于 我 们 定义 的 main 国 数 不 佛 任何 参数 ， 参数 列表 应 写成 void ， main AA 
的 返回 值 是 int 类 型 的 ，return 0 这 个 语句 就 表示 返回 值 是 0，main 图 数 的 返回 值 是 返回 给 操作 
系统 看 的 ， 因 为 main 函 数 是 被 操作 系统 调用 的 ， 通 常 程序 执行 成 功 就 返回 9， 在 执行 过 程 中 出 错 
就 返回 一 个 非 零 值 。 比 如 我 们 将 main 函 数 中 的 return 语 句 改 为 return 4; 再 执行 它 ， 执 行 结束 后 
可 以 在 Shell 中 看 到 它 的 退出 状态 : 







































































































































































:$ ./hello 
ES echo $? 
:4 















































$? 是 Shell 中 的 一 个 特殊 变量 ， 表 示 上 一 个 运行 结束 的 程序 的 退出 状态 。 关 于 main 函 数 需 要 注意 
两 点 : 























1. [K&R1 书 上 的 main 函 数 定义 写成 main O {...} 形 式 ， 不 写 返 回 值 类 型 也 不 写 参 数列 表 ， 这 
是 Old Style CHIX% o Old Style C 规 定 不 写 返 回 值 类 型 就 表示 返回 int 型 ， 不 写 参数 列表 
























































就 表示 参数 类 型 和 个 数 疫 有 明确 指出 。 这 种 宽松 的 规定 会 导致 很 多 复杂 的 Bug 产 生 ， 不 幸 
的 是 现在 的 C 标 准 为 了 兼容 旧 的 代码 仍然 保留 了 这 种 语法 ， 但 是 读者 绝 不 应 该 继续 使 用 这 
种 语法 。 





























































































































2. 其 实 系 统 在 调用 main 函 数 时 是 传 参 数 的 ， 以 后 会 详细 解释 ， 所 以 main 函 数 最 标准 的 形式 应 
该 是 int main(int argc, char *argv[]) o C 标 准 也 规定 了 int main (void) 这 种 形式 ， 如 
果 不 使 用 系统 传 进来 的 两 个 参数 也 可 以 写成 这 种 形式 。 但 除了 这 两 种 形式 之 外 ， 以 其 它 形 
式 定 义 main 消 数 都 是 错误 的 或 不 可 移植 的 。 










































































关于 返回 值 和 return 语 句 我 们 将 在 第 1 节 "eturn 语 名 ?详细 讨论 ， 我 们 先 从 不 带 参数 也 没有 返回 
值 的 函数 开始 学 习 定义 和 使 用 函数 : 





















































例 3.2. 最 简单 的 目 定 义 函数 











: #include <stdio.h> 


i void newline (void) 
D 
printf ("in"); 
D 








执行 结 霖 是 : 








| int main (void) 


: { 

i printf ("First Line.\n"); 
: newline(); 

! printf ("Second Line.\n"); 
: return 0; 

P] 





IUE EESTI. 


! Second Line. 





def EX r— 


fale] 









































空 行 。 newline PALA ANH 
， 这 说 























个 newline 水 数 给 main 水 数 调用 ， 它 的 作用 是 打印 一 个 换行 ， 所 以 执行 结 来 








Jule 
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DIZ WR FA newline KZI: 
































数 ， 也 没有 返回 值 ， 返 回 值 
明 我 们 用 这 个 函数 完全 是 为 了 利用 它 的 Side Effect。 如 果 我 们 想 要 多 次 插入 


类 型 为 void 表示 没有 返回 
空 行 就 可 























pn main(void) 


a 


printf ("First Line.\n"); 
newline(); 

newline(); 

newline(); 

printf ("Second Line.\n"); 
return 0; 











如 采 我 们 总 需要 三 个 























三 个 地 插入 空 行 ， 














例 3.3. Sef] ALAS) H AE SC PRB 





从 这 个 简单 的 例子 

















: #include <stdio.h> 


i void newline (void) 


Ed 

: joyealioue ie (Y Yin) p 

m 

| void threeline (void) 

: { 

newline(); 

: newline(); 

newline(); 

iol 

ane main (void) 

E 

: printf("Three lines:\n"); 
: threeline(); 
printf("Another three lines.\n"); 
threeline(); 

: return 0; 

ED 














' 可 以 体会 到 : 


我 们 可 以 再 定义 一 个 threeline 握 





数 每 次 搬入 三 个 空 

















acu 


1. 同一 个 函数 可 以 被 多 次 调 月 
2. 可 以 用 一 个 函数 调用 男 一 个 函数 ， 后 者 再 去 调 第 三 个 函数 。 


3. 通过 自 定义 函数 可 以 给 一 组 复杂 的 操作 起 一 个 简单 的 名 字 ， 例如 threeline。 X| F main 
数 来 说 ， 只 需要 通过 threeline 这 个 简单 的 名 字 来 调用 就 行 了 ， 不 必 知 道 打 印 三 个 空 行 具 
体 怎么 做 ， 所 有 的 复杂 操作 都 被 隐藏 在 tnreeline 这 个 名 字 后 面 。 


4. 使 用 上 自 定 义 函 数 可 以 使 代码 更 简洁 ，main 函 数 在 任何 地 方 想 打 印 三 个 空 行 只 需 调 用 一 个 简 
单 的 threeline 0, 而 不 必 每 次 都 写 三 个 printf("\n") o 


读 代 码 和 读 文 章 不 一 样 ， 按 从 上 到 下 从 左 到 右 的 顺序 读 代码 未 必 是 最 好 的 。 比 如 上 面 的 例子 ， 
按 顺 序 应 该 是 先 看 newi i nef} Athreel i ne 再 看 mai no 如 果 你 换 个 角 度 , 按 代码 的 执行 顺序 来 读 
也 许 会 更 好 : B 先 执行 Hy) main AL 中 的 语句 , 在 一 条 printf 之 后 调用 了 threeline 5 这 时 再 去 
看 threeline 的 定义 > AN 1 又 调用 J newline, 这 时 再 去 看 newline 的 定义 A newline Ẹ 面 有 一 
printf, 执行 完成 后 返回 threeline ， 这 里 还 剩 下 两 次 newline 调 用 ， 效果 也 都 一 样 ， 这 个 执行 
完 之 后 返 回 main 接 下 来 又 是 一 条 brintf 和 一 条 threeline o 如 下 图 所 示 : 
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图 3.1. 函数 调用 的 执行 顺序 
void newline(void) 
void threeline(void) { 
int main(void) { printf("\n"); 


{ inet}, } 
printf("Three nesan; newline ; 
threeline(); newline(); void newline(void) 


printf(" Another three lines:\n"); MN printf("\n"); 
threeline(); } ‘ 
return 0; 
} void newline(void) 
{ 
printf("\n"); 
} 


在 这 个 过 程 中 ， 我 们 就 在 模仿 计算 机 执行 这 个 程序 ， 我 们 不 仅 要 记 住 当前 读 到 了 哪 一 行 代码 ， 
还 要 记 住 现在 读 的 代码 是 被 哪个 函数 调用 的 ， 还 要 记 住 当前 这 段 代码 返回 后 应 该 从 上 一 个 函数 
的 什么 地 方 接着 往 下 读 。 

MERWE TAAA HAE KURA (Prototype) 这 几 个 概念 。 比 如 voia 

threeline (void) 这 一 行 ， 声 明了 一 个 函数 的 名 字 、 参 数 类 型 和 个 数 、 返 回 值 类 型 ， 这 称 为 函数 
原型 。 在 代码 中 可 以 单独 写 一 个 函数 原型 ， 后 面 加 ;号 结束 ， 而 不 写 函 数 体 ， 例 如 : 
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i void threeline (void); 














TOCA FE NY PR Bir BA TM AN BE PACE MRO PR BURA AM eM LE a, Ro 
Fic FF fiat an] Bes gg pm Re X, SRL FÉ, He Eds SALE PRICE MAP SE 
HS, TR TERE PITT AY SS PA BE A ZS TAY © ABA BOR PAK BI PAIS HA TT 

呢 ? 它 为 编译 器 提供 了 有 用 信息 ， 编 译 占 在 处 理 代码 的 过 程 中 ， 只 有 见 到 函数 原型 (不 管 之 不 
AZUR) 之 后 才 知 道 这 个 函数 的 名 字 、 参 数 类 型 和 返回 值 ， 然 后 在 碰 到 冰 数 调用 时 才 知 道 怎 
么 生成 相应 的 指令 ， 所 以 函数 原型 必须 出 现在 函数 调用 之 前 ， 这 也 是 遵循 “ 先 声明 后 使 用 ”的 原 
则 。 


在 上 面 的 例子 
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; main Wil Hthreeline, threeline 再 调用 newline ， 要 保证 每 个 函数 的 原型 出 现 


newline threeline main 









































在 调用 之 前 ， 就 只 能 按 先 再 再 ” ”的 顺序 定义 了 。 如 果 使 用 不 带 函 数 体 的 声 
明 ， 则 可 以 改变 函数 的 定义 顺序 : 

















: #include <stdio.h> 


: void newline (void); 
i void threeline (void); 


: int main(void) 


uf 
ia} 


: void newline (void) 


|: 
i) 


: void threeline (void) 


E 


a 


























这 样 仍 然 遵 循 了 先 声 明 后 使 用 的 原则 。 


由 于 有 Old Style C 语 法 的 存在 ， 并 不 是 所 有 函数 声明 都 包含 函数 原型 ， 例 如 声明 voia 
threeline () ;没有 明确 指出 参数 类 型 和 个 数 ， 所 以 不 算 函 数 原型 ， 这 个 声明 提供 给 编译 器 的 信息 
只 有 函数 名 和 返回 值 类 型 。 如 果 在 这 样 的 声明 之 后 调用 函数 ， 编 译 器 将 不 做 参数 类 型 检查 和 自 
动 转换 ， 所 以 很 容易 引入 Bug。 读 者 需要 了 解 这 个 知识 点 以 便 维护 旧 的 代码 ， 但 绝 不 应 该 按 这 种 
风格 写 代码 。 


如 果 在 调用 函数 之 前 没有 声明 它 会 怎么 样 呢 ; 有 的 读者 也 许 磁 到 过 这 种 情况 ， 我 可 以 解释 一 
下 ， 但 纯粹 是 为 了 满足 某 些 人 的 好 奇 心 ， 认真 写 代码 绝 不 应 该 这 么 写 的 。 比 如 按 上 面 的 顺序 定 
义 这 三 个 函数 ， 但 是 把 开头 的 两 行 声明 去 掉 : 























































































































































































































































































































































































































: #include <stdio.h> 


: int main (void) 





an 

printf ("Three lines:\n"); 
threeline(); 
printf("Another three lines.\n"); 
threeline(); 

: return 0; 

b) 

: void newline (void) 

:( 

| oe (Ng) e 

:] 

: void threeline (void) 

Pd 

: newline(); 

newline(); 

: newline(); 

3 








编译 时 会 报警 告 





: $ gcc main.c 

: main.c:17: warning: conflicting types for ‘threeline’ 

| main.c:6: warning: previous implicit declaration of ‘threeline’ 
: was here 











Declaration) , 











但 仍然 能 编译 通过 ， 运行 结 采 也 对 。 这 里 涉及 到 的 规则 称 为 函数 的 隐 式 声明 (Implicit 
在 main PREP a 用 threeline 时 并 没有 声 HA 5, WU Zan Eas 认为 此 处 隐 式 声 明 



































了 int threeline (void) 然后 为 这 个 | 调用 生成 相应 的 指令 ) 隐 式 声明 的 参数 类 型 和 个 数 根 据 活 




















数 调 用 代码 来 确定 ， Kast 回 值 类 型 总 是 int 。 然 后 编译 器 接着 往 下 看 ， 看 


到 threeline 国 数 的 原型 是 voida threeline (void) 和 先前 的 隐 式 声明 的 返回 值 类 型 不 符 ， 





























才 报 这 个 警告 。 好 在 我 们 也 没 用 到 这 个 浮 数 的 返 回 值 ， 所 以 执行 结果 仍然 正确 。 








[6] 敏锐 的 读者 可 能 会 发 现 一 个 矛盾 : 如 果 函 数 newline 没 有 返回 值 ， 那 么 表达 式 newline () 





没有 值 了 吗 ? 


















































所 以 


不 就 


然而 我 在 前 面 却 说 任何 表达 式 都 有 一 个 值 。 其 实 这 正 是 设计 voia 这 么 一 个 关键 字 
的 原因 : 让 没有 返回 值 的 函数 调用 有 一 个 voia 值 。 然 后 再 规定 ， 表 达 式 的 计算 结果 可 以 




























































































ESER 


个 表达 式 的 一 部 分 来 用 。 从 而 兼顾 语法 上 的 一 致 (任何 表达 式 都 有 值 ， 如 果 












































表达 式 实在 没有 值 就 说 它 有 veia 值 》 和 语义 上 的 不 予 于 (voia 信 是 虚构 出 玉 的 ， 不 能 做 计 


ee 如 果 一 个 表达 式 的 值 为 voia， 就 不 能 


ae 


3. 形 参 和 实 参 


第 3 章 简单 函数 





3. 形 参 和 实 参 


下 面 我 们 定义 一 个 带 参数 的 函数 ， 我 们 需要 在 函数 定义 中 指明 参数 的 个 数 和 每 个 参数 的 类 型 ， 
定义 参数 就 像 定义 变量 一 样 ， 需 要 为 每 个 参数 指明 类 型 ， 并 起 一 个 符合 标识 符 命名 规则 的 名 
字 。 例 如 : 


































































































例 3.4. 市 参数 的 目 定义 函数 

















; #include <stdio.h> 


i void print_time(int hour, int minute) 


Pd 

printf ("$d:%d\n", hour, minute); 
BJ 

| int main(void) 

i { 

print time(23, 59); 

: return 0; 

- 












































需要 注意 的 是 ， 定 义 变 量 时 可 以 把 同样 类 型 的 变量 列 在 一 起 ， 而 定义 参数 却 不 可 以 ， 例 如 下 面 
这 样 的 定义 是 错误 的 : 




















: void print time(int hour, minute) 
P4 


Dremel el: tela oO Le boue) P 


i) 














学 习 C 语 言 的 人 肯定 都 乐意 看 到 这 句 话 :“ 变 量 是 这 样 定义 的 ， 参 数 也 是 这 样 定义 的 ， 一 模 一 
样 "， 这 意味 着 不 用 专门 去 记 住 参数 应 该 怎么 定义 了 。 谁 也 不 愿意 看 到 这 向 话 :“ 变 量 可 以 这 样 ， 
而 参数 却 不 可 以 "。C 语 言 的 设计 者 也 不 希望 自己 设计 的 语法 规则 里 到 处 都 是 这 种 例外 ， 一 个 容 
易 被 用 户 接受 的 设计 应 该 遵循 最 少 例外 原则 (Rule of Least Surprise) 。 其 这 里 的 这 个 规定 
也 不 算 十 分 的 例外 ， 并 不 是 C 语 言 的 设计 者 故意 找茬 ， 而 是 不 得 不 这 么 规定 ， 读 者 想 想 为 什么 
呢 ， 学 习 编程 语言 不 应 该 死记 各 种 语法 规定 ， 如 果 能 够 想 清 楚 设计 者 这 么 规定 的 原因 
(Rationale) ， 不 仅 有 助 于 记忆 ， 而 且 会 有 更 多 收获 。 本 书 在 必要 的 地 方 会 解释 一 

些 Rationale ， 或 者 启发 读者 自己 去 思考 ， 例 如 先前 在 脚注 中 解释 了 void 关键 字 的 Rationale 。 


总 的 来 说 ，C 语 言 的 设计 是 非常 优美 的 ， 只 要 理解 了 少数 的 基本 概念 、 基 本 原则 就 可 以 根据 组 合 
规则 写 出 任意 复杂 的 程序 ， 极 少 有 例外 的 规定 说 这 样 组 合 是 不 允许 的 ， 或 者 那样 类 推 是 错误 

的 。 相 反 ，C++ 的 设计 就 非常 复杂 ， 处 处 充满 了 例外 ， 全 世界 没有 几 个 人 能 把 C++ 所 有 的 规则 都 
牢记 于 心 的 ， 因 而 不 被 人 广泛 接受 。 这 个 观点 在 [UNIX 编 程 艺 术 ] 一 书 中 有 详细 阐述 。 


本 书 中 ， 凡 是 提醒 读者 注意 的 地 方 都 是 多 少 有 些 Surprise 的 地 方 ， 初 学 者 如 果 按 名 理 来 想 很 可 
出 错 ， 所 以 需要 特别 提醒 一 下 。 而 初学 者 容易 犯 的 另外 一 些 错误 ， 完 全 是 因为 没有 掌握 好 
基本 概念 和 基本 原理 ， 或 者 根本 无 视 SR S S EMU BL, XETXX 类 问题 本 书 
不 会 做 特别 的 提醒 ， 例 如 有 的 初学 者 E JE 达 式 之 后 会 这 样 打印 T 的 值 : 
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之 所 以 会 犯 这 机 
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小 孩 吃 饭 一 定 要 吃 到 嘴 


到 正题 。 我 人 
表 59。 确 切 地 说 ， 当 我 们 讨 ; 
当 我 们 讨论 传 一 个 参数 23 给 函 
oo ga eH 
BRAS), 
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( 
( 
GR 


: double pi=3.1416; 
十 DIS (WL ays) e 








中 错误 ， 一 














而 事实 上 和 棋 











HE 
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` 理 解 Literal 的 含义 ， 





二 是 poi 

















组 合 Avy H3 AA 


合 到 字符 EH d 













































































FER RAB AEE 














组 合 规则 。 如 果 连 这 
| 






















































































民 本 没有 这 多 
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] 调 


A print_ 





Parameter) , 
Amen 








JH. 
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TE JH 

















实 上 大 多 数 人 者 














s, ANZ SI 5S 











EZ, me 


59) 上 时， 函数 中 的 参数 hour 就 代表 23， 
的 hour 这 个 参数 时 ， 我 们 所 说 的 “ 参 
数 时 ， 我 们 所 说 的 “参数” 
BZ 

















time (23, 


E KZ 
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数 ” 
是 + 











E: 








种 醒 ， 就 好 比 提醒 
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参数 minute 就 代 
HIE 





HEB 
~ AAMA CBA Te EE UL 





























卖 者 可 根据 上 文 判断 我 指 的 到 有 alt 














形 参 相 当 于 函数 
用 实 参 的 值 来 初始 化 。 例 如 这 相 


























CBIR ELE 





。 记 住 这 条 




















定义 的 变量 
调用 : 


， 调 用 


























函数 传递 参数 的 过 程 相当 了 





F 定义 形 参 


变量 并 且 


: void print_time(int hour, int minute) 


d 
i) 


Dea (We oily mW, 


| int main(void) 


d 


int 


h = 23, 


hour, minute); 


m = 59; 


print_time(h, m); 
return 0; 

















































































































































































































































































































相当 于 在 函数 print_time 中 执行 了 这 样 一 些 语句 : 

me hous = Dg 

p iae menea = sm; 

; printf ("sd:sd\n", hour, minute); 
main PRAMAS ath Fllprint_time Px 数 的 参数 nour 是 两 个 不 同 的 变量 ， 只 不 过 它们 各 目的 存储 空间 

\ 存 了 相同 的 值 23， 因为 变量 h 的 值 赋 给 了 参数 hour。 同 理 ， 变 量 m 的 值 赋 给 了 参 

数 minute 。C 语 言 的 这 种 传递 参数 的 方式 称 为 Call by Value. m. HRAT, BEAT RU S RA 
到 一 个 值 ， 函 数 定 义 中 有 几 个 Parameter， 在 调用 中 就 需要 传 几 个 Argument ， 不 能 多 也 不 能 
少 ， 每 个 参数 的 类 型 也 必须 对 应 上 。 但 是 为 什么 我 们 调用 printf 消 数 时 传 的 Argument 数 目 是 交 
化 的 ， 有 时 一 个 有 时 两 个 甚至 更 多 个 ?这 是 因为 C 语 言 规定 了 一 种 特殊 的 参数 列表 格式 ， 例 
如 printf 的 原 型 是 这 样 的 : 



























































































































































































































































第 一 个 参数 是 const char* 类 型 的 ， 后 面 的 ... 可 以 代表 0 个 或 任意 多 个 参数 ， 这 些 参 数 的 类 型 也 是 
不 确定 的 ， 这 称 为 可 变 参数 (Variable Argument) ， 以 后 我 们 再 详细 讨论 这 种 格式 。 总 之 , TE 
何 函 数 的 定义 既 规 定 了 返回 值 的 类 型 ， 也 规 定 了 参数 的 类 型 和 个 数 ， 即使 像 printf 这 样 规定 
为 “不 确定 ”也 是 一 种 明确 的 规定 ， 调 站 水 数 就 要 严格 遵守 这 些 规定 ， 通 常 我 们 说 函数 提供 了 一 个 
接口 (Interface) ， 调 用 阴 数 就 是 使 用 这 个 接口 ， 使 用 的 前 提 是 必须 和 接口 保持 一 致 。 

习题 

1. EMP HR increment , 它 的 作 是 将 传 进来 的 参数 加 1 ， 然后 在 main 函数 














用 increment KIZJI 


es 




















量 的 值 : 

















i void increment (int x) 
Z 
b) 


SS = ok se dig 


' int main (void) 


ime sk = d 5) = 2p 
increment (i); /* now i becomes 2 */ 


increment (j); /* now j becomes 3 */ 
return 0; 





3X increment 图 数 能 奏效 吗 ?” 为 什么 ? 











4. 局 部 变量 与 全 局 变量 





第 3 章 fn] ERA 








4. 局 部 变量 与 全 局 变量 


我 们 把 函数 中 定义 的 变量 称 为 局 部 变量 (Local Variable) ， 由 于 形 参 相 当 于 函数 中 定义 的 变 
量 ， 所 以 形 参 也 相当 于 局 部 变量 。 在 这 里 “局 部 "有 两 个 含义 : 


1、 FES pra 1 定义 的 变量 不 能 被 另 一 个 函数 使 用 。 例如 Print_time 1H Jnour FminutefEMainN i 
BAIA EM, ABE, Tal Pemain K cP B Jaga ee tL AN RE A print_time PBUH H. Am Rb RE 
定义 : 









































































































































vod print time(int hour, int minute) 


P4 

printf ("$d:%d\n", hour, minute); 
b) 

: int main (void) 

El 

| int hour = 23, minute = 59; 

: print time (hour, minute); 

return 0; 

i} 
































main PRA He Mf bas hour, ，print_time 国 数 中 也 有 参数 hour ， 昌 然 它 们 名 称 相 同 ， 但 仍 
然 是 不 同 的 变量 ， 仍 然 代 表 不 同 的 存储 空间 ， 只 不 过 各 目的 存储 空间 中 存 了 相同 的 
值 23。 main 耳 数 的 局 部 变量 minute 和 print_time 困 数 的 参数 minute 也 是 如 此 。 


2、 每 次 调用 函数 时 局 部 变量 都 表示 不 同 的 存储 空间 。 局 部 变量 是 在 每 次 函数 调用 时 分 配 存 储 空 
间 ， 每 次 函数 返回 时 释放 存储 空间 的 ， 例 如 调用 print_time (23，59) 时 ,分配 hour 和 minute 两 个 
变量 的 存储 空间 ， 在 里 面 分 别 在 上 23 和 59 ， 函 数 返 回 时 释放 它们 的 存储 空间 ， 下 次 再 调 

用 print_time(12， 20) 时 ， 又 分 配 hourz 和 minute 两 个 变量 的 存储 空间 ， 在 里 面 分 别 存 

上 12 和 20。 


我 们 知道 ， 函 数 体 可 以 由 很 多 条 语句 组 成 ， 现 在 学 过 的 有 变量 定义 语句 和 表达 式 语 句 。 在 函数 
体 中 ， 通 常 把 所 有 的 变量 定义 语句 放 在 最 前 面 ， 然 后 才 是 其 它 语 句 ， 这 是 传统 C 的 规定 ， 我 们 之 
前 举 的 所 有 例子 都 遵守 这 一 规定 。C99 人 允许 变量 定义 穿插 在 其 它 语句 之 中 ， 只 要 对 于 每 个 变量 都 
避 循 完 定义 后 使 用 的 原则 就 可 以 ， 不 管 怎么 样 ， 使 用 传统 C 的 特性 总 是 比较 保险 的 。 


与 局 部 变量 的 概念 相对 的 是 全 局 变量 (Global Variable) ， 全 局 变量 定义 在 所 有 的 函数 体 之 外 ， 
它们 在 整个 程序 开始 之 前 分 配 存储 空间 ， 在 程序 结束 时 释放 存储 空间 ， 所 有 函数 都 可 以 通过 全 
司 变 量 名 访问 它们 ， 例 如 : 



























































































































































































































































































































































例 3.5. 全 局 变量 


: #include <stdio.h> 
‘int hour = 23, minute = 59; 


: void print_time (void) 
SEU 
| orme (Weel eel abe eol jeans Wo! ones NES) p 


|j 


Ae ja) AE a FEE fF IS] PU PRL 
:看 不 出 来 〈 源 代码 的 书写 顺 
个 不 起 眼 的 地 方 对 全 局 变 
A Fr IBI , 
从 函数 的 源 代码 也 很 容 
HE, 虽然 全 局 变 量 用 起 来 


J 


贡 序 从 源 代 
是 因为 在 某 
难 找 出 来 的 。 


调用 之 中 












































; int 


d 


main (void) 


print_time 


printf("£d:$d in main\n", 
return 0; 


0; 


hour, minute); 





























人 码 














! 都 可 以 访 


jj], 


FA RENH 














所 以 在 整个 程序 运行 过 程 中 全 局 变量 被 读 写 的 


函数 的 调用 顺序 ) ， 出 现 了 Bug 人 往往 就 












































量 的 读 写 
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HAE 


对 于 局 











易 看 出 访 


|a] 


量 的 访 


nj 

















顺序 不 正确 ， 
] 不 仪 局 限 在 一 个 函数 


如 果 代 码 规模 很 大 ， 这 种 错误 是 很 
内 部 ， 而 且 局 限 在 一 次 函数 
的 先后 顺序 是 怎样 的 ， 所 以 比较 容易 Bond 
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量 和 局 部 变量 重 





例 3.6. 作用 域 


#include <stdio.h> 


int hour = 23, minute = 59; 
int x = 10; 


void print time(void) 


1 
} 


printf ("%d:%d in print_time\n", 


int main(void) 


{ 


则 第 
局 部 变 
函数 体 之 外 


方便 ， 但 





KE 








int hour = O, minute = 30; 
print_time(); 


printf ("%d:%d in main\n", 
printf ("x=%d\n", 


return Q; 





量 的 值 。 在 C 语 言 





一 次 调用 print-_ OF Sa 


x); 





HH, SEHR 
羊 呢 ?如 果 上 面 的 例子 改 为 : 


量 的 值 ， 第 二 次 ] 























数 传 参 代 符 的 就 不 要 用 全 局 变量 











hour, minute); 


hour, minute); 
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， 每 个 标 i 








的 标识 符 





Fi 





D 


YA T 








作用 域 仅 限于 
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变量 x。 
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做 | 


nitializer , 














上 用 到 标识 符 hour 和 minut 
了 ， 如 果 在 小 纸 上 用 到 某 


main PARC nmn 




















都 有 特定 的 作用 域 (Scope) , 
F, 的 作用 域 从 定义 的 位 置 开始 





全 局 变量 是 定义 在 所 有 
直到 源 文 件 结 IIN, main KZU AA at AY) 


























。 如 上 图 所 示 ， 设 想 整 个 源 文 件 
用 域 ， 而 mein 函数 是 贴 在 这 张大 纸 上 的 一 张 小 纸 ， 也 就 是 main 函 数 局 部 变量 的 作 

















时 一 张大 纸 ， 也 就 是 全 局 变量 的 作 
用 域 。 在 小 纸 





























e 时 应 该 参考 小 纸 上 的 定义 ， 





因为 大 纸 (全 局 变量 的 作用 域 ) 被 盖 住 


























目前 为 止 我 们 在 初始 









































但 要 注意 
能 用 常量 表达 式 初始 化 。 例如 ， 全 局 


点 : 局 部 变 | 


个 标识 符 却 没 有 找到 它 的 定义 ， 














EE. 
变量 pi 这 











那么 再 去 翻 看 下 面 的 大 纸 ， 例 如 上 图 

















化 一 个 变量 时 都 是 用 常量 做 Initializer， 其 实 也 可 以 用 表达 式 
HA] LARA FERRI 




















相符 的 表达 式 来 初始 化 ， 而 全 局 变量 只 
样 初 始 化 是 合法 的 : 


FE 


















































但 这 样 初 始 














化 
































然而 局 部 变量 这 样 初始 化 却 是 可 以 的 。 全 局 变量 的 初始 值 要 求 保存 在 编译 生成 的 目标 代码 中 ， 
所 以 必须 在 编译 时 就 能 计算 出 来 ， 然而 上 面 第 二 种 Initializer 的 值 必须 在 生成 了 目标 代码 之 后 
在 运行 时 调用 acos 函数 才能 知道 ， 所 以 不 能 用 来 初始 化 全 局 变量 。 请 注意 区 分 编译 时 和 运行 时 
的 概念 。 为 了 方便 编译 絮 实 现 这 一 限制 ，C 语 言 从 语法 上 规定 ] 全 局 变量 只 能 用 常量 表达 式 来 初 
始 化 ， 因 此 下 面 这 种 全 局 变量 初始 化 也 是 不 合法 的 : 











































































































































































































: int minute = 360; 
p ime aowe Smile, 


























虽然 在 编译 时 也 可 以 计算 出 hour 的 初始 值 ， 但 minute /60 不 是 常量 表达 式 ， 不 符合 语法 规定 。 


如 果 全 局 变量 在 定义 时 不 初始 化 ， 则 初始 值 是 0， 也 就 是 说 ， 整 型 的 就 是 0， 字 符 型 的 就 是 \0 '， 
浮 点 型 的 就 是 0.0。 如 3 RR 局 部 变量 在 定义 时 不 初始 化 ， 则 初始 值 是 不 确定 的 ， 所以， 局 部 变量 在 
使 用 前 一 定 要 先 赋值 ， 不 管 是 通过 初始 化 还 是 赋值 运算 符 ， 如 采 读 取 一 个 不 确定 的 值 来 使 用 肯 
定 会 引入 Bug。 人 至 于 为 什么 这 样 规定 ， 以 后 会 讲 到 的 。 


如 何 证 明 “ 局 部 变量 的 存储 空间 在 每 次 函数 调用 时 分 配 ， 在 函数 返回 时 释放 ”? 当 我 们 想 要 确认 某 
些 语法 规则 时 ， 可 以 查 教 材 ， 也 可 以 查 C99， 但 最 快捷 的 办 法 就 是 编 个 小 程序 验证 一 下 : 



















































































































































































































































































































































































例 3.7. 验证 局 部 变 量 存 储 空 X[R] 的 分 配 和 释放 


: #include <stdio.h> 





: int foo (void) 


| 
: IONE acp 
prasme (SN a) E 
| i = Is 
iy 
| int main(void) 
:( 
| foo; 
: foo(); 
return 0; 
:] 





























一 次 调用 too 函数 ， 分 配 变 量 i 的 存储 空间 ， 然 后 打印 的 值 ， 由 于 i 未 初始 化 ， 打 出 来 应 该 是 一 
个 不 确定 的 值 ， 然 后 把 i 赋值 为 777 ， 了 艺 数 返回 ， 释 放 i 的 存储 空间 。 第 二 次 调用 foo 甬 数 ， 分 配 变 
量 i 的 存储 空间 ， 然 后 打印 的 值 ， 由 于 i 未 初始 化 ， 如 果 打 出 来 的 又 是 一 个 不 确定 的 值 ， 就 证 明 
了 “局 部 变量 的 存储 空间 在 每 次 函 数 调用 时 分 配 ， 在 函数 返回 时 释放 "。 分 析 完 了 ， 我 们 运行 程序 
看 看 是 不 是 像 我 们 分 析 的 这 样 : 














































































































| 134518128 
777 









































结果 出 乎 我 们 意料 ， 第 二 次 调用 打出 来 的 ; 值 正 是 第 一 次 调用 未 尾 给 贼 的 值 777。 有 一 种 初学 者 
是 这 样 ， 原 本 就 没有 把 这 条 语法 规则 记 牢 ， 或 者 对 自己 的 记忆 力 没 信心 ， 看 到 这 个 结果 就 会 
JB: 哦 那 肯定 是 我 记 错 了 ， 改 过 来 记 吧 ， 应 该 是 “ 酉 数 中 的 局 部 变量 具有 一 直 存在 的 固定 的 存储 
空间 ， 每 次 函数 调用 时 使 用 它 ， 返 回 时 也 不 释放 ， 再 次 调用 函数 时 它 应 该 还 能 保持 上 次 的 值 "。 
还 有 一 种 初学 者 是 怀疑 论 者 或 不 可 知 论 者 ， 看 到 这 个 结果 就 会 想 : 教材 上 明明 说 "局 部 变量 的 存 



























































































































































































































































储 空间 在 每 次 函数 调用 时 分 配 ， 在 函数 返回 时 释放 "， 那 一 定 是 教材 写 错 了 ， 教 材 也 是 人 写 的 ， 
是 人 写 的 就 难免 出 错 ， 哦 ， 连 C99 也 这 么 写 的 啊 ，C99 也 是 人 写 的 ， 也 难免 出 错 ， 或 者 C99 也 许 
没 错 ， 但 是 反正 运行 结果 就 是 错 了 ， 计 算 机 这 东西 真 靠 不 住 ， 太 容易 受 电磁 干扰 和 宇宙 射线 影 
响 了 ， 我 的 程序 写 得 再 正确 也 有 可 能 被 干扰 得 不 能 正确 运行 。 


这 是 初学 者 最 常见 的 两 种 心态 。 不 从 客观 事实 和 逻辑 推理 出 发 分 析 问 题 的 真正 原因 ， 而 仅 赁 主 
观 脐 断 胡 乱 给 问题 定性 ,，“ 说 你 有 罪 你 就 有 罪 ”。 先 不 要 胡乱 怀疑 ， 我们 再 做 一 次 实验 ， 在 两 
个 too 调用 之 间 插 一 个 别 的 调用 ， 结 果 就 大 不 相同 了 : 
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"E main(void) 


T 









foo(); 

Oe (WSO mW) 
foo(); 

return 0; 











: 134518200 
| hello 
i0 















































一 回 ， 第 二 次 调用 foo 打 出 来 的 i 值 又 不 是 777 了 而 是 0， a ae A fe) FE BE A FH 
"m SAC, ERZO LE] ET EBC IK SAREE T , mares PUR 对 了 : 全 局 变量 不 初始 化 才 























是 0 啊 ， 不 是 说 “局 部 变量 不 初始 化 则 初 值 不 确定 " 吗 ? 


关键 的 一 点 是 ， 我 说 “ 初 值 不 确定 ”"， 有 没有 说 这 个 不 确定 值 不 能 是 0? 有 没有 说 这 个 不 确定 值 不 
Gs RC Ls a , 量 的 初 信 可 能 
不 一 样 ， 运 行 环境 不 同 ， 函 数 的 调用 次 序 不 同 ， 都 会 影响 到 局 部 变量 的 初 值 。 在 运用 逻辑 推理 
时 一 定 要 注意 ， = Haus 要 条 件 (Necessary Condition) 当 充 分 条 件 (Sufficient 
Condition) ， 这 一 点 在 Debug 时 尤其 重要 ， 看 到 错误 现象 不 要 轻易 断定 原因 是 什么 ， 一 定 要 考 
=, 我 出 它 的 真正 原因 。 例如 ， 不 要 看 到 第 二 次 调用 打印 出 777 就 断定 “函数 中 的 局 部 变量 
具有 一 直 存 在 的 固定 的 存储 空间 ， 每 次 函数 调用 时 使 用 它 ， eau FRC Hal FA BR SCE 
它 应 该 还 能 保持 上 次 的 值 "，777 这 个 结果 是 结论 的 必要 条 件 ， 但 不 充分 。 也 不 要 看 到 第 二 次 调 
用 打印 出 0 就 断定 "局 部 灾 S Toc. du i m s 至 
于 为 什么 会 有 这 样 的 现象 ， 这 个 不 确定 值 刚 好 是 777， 刚 好 是 0， 以 后 我 们 再 分 析 。 
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ip = dest 
3. 形 参 和 实 参 起 始 页 第 4 章 xat 








第 4 章 分 文 语句 
目录 

1. 计 请 他 

2. ifelse 语 人 ] 


3. 布尔 代数 
4. switch 语 人 句 


1. if 语 句 
Jezel 78 4 3€ 4) IBA] RSA 


1. ifi#4) 
日 前 我 们 写 的 简单 函数 中 可 以 有 多 条 语句 ， 但 这 些 语句 总 是 从 前 到 后 顺序 执行 的 。 除 了 从 前 到 


后 顺序 执行 之 外 ， 有 时 候 我 们 需要 检查 一 个 条 件 ， 然 后 根据 检查 的 结果 执行 不 同 的 后 续 代 三， 
在 C 语 言 中 可 以 用 分 支 语 名 (Selection Statement) 实现 ， 比 如 : 


































































































ie (x l= 0) 7 
: primer (WS ale} neonzero NAN); 




















中 x t= 0 表示 “x 不 等 于 0” 这 个 条 件 ， 这 个 表达 式 称 为 控制 表达 式 (Controlling Expression) 如 
ER 条 件 成 立 ， 则 中 的 语句 被 执行 ， 否 则 0} 中 的 语句 不 执行 ， 直 接 跳 间 } 后 面 。if 和 控制 表达 式 改 
变 了 程序 的 控制 流程 (Control Flow) ， 不 再 是 从 前 到 后 顺序 执行 ， 而 是 根据 不 同 的 条 件 执行 不 
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X 
同 的 语句 ， 这 种 控制 流程 称 为 分 文 (Branch) 。 上 例 中 的 上 = 号 表示 “不 等 于 ， 像 这 样 的 运算 符 
H: 
K 41. 关系 运算 符 和 相等 性 运算 符 
注意 以 下 几 点 : 













































































1. 这 里 的 == 表 示 数 学 中 的 相等 关系 ， 相 当 于 数学 中 的 = 号 ， 初 学 者 背 犯 的 错误 是 在 控制 表达 
式 中 把 == 写 成 =， 在 C 语 言 中 = 号 是 赋值 运算 符 ， 两 者 的 含义 完全 不 同 。 


2. 如 果 表 达 式 所 表示 的 比较 关系 成 立 则 值 为 真 (True) , uA (False) ， 在 C 语 言 中 分 
别 用 1 和 0 表示 。 例 如 x 是 -1， 那 么 x>o 这 个 表达 式 的 值 为 0，x>-2 这 个 表达 式 的 值 为 1。 

3. 在 数学 中 a<b<c 表 示 b 既 大 于 a 又 小 于 c， 但 作为 C 语 言 表达 式 却 不 是 这 样 。 以 上 几 种 运算 符 

都 是 左 结合 的 ， 请 读者 想 一 下 这 个 表达 式 表 示 什 么 ? 

4. 这 些 运算 符 的 两 个 操作 数 都 应 该 是 相同 类 型 的 ， 例 如 两 边 都 是 字符 型 、 都 是 整 型 或 者 都 是 
浮 点 型 ， 但 不 能 比较 两 个 字符 串 ， 以 后 我 们 会 介绍 比较 字符 串 的 方法 。 


5. == 和 != 称 为 相等 性 运算 符 (Equality Operator) ， 其 余 四 个 称 为 关系 运算 符 (Relational 
Operator) ， 相 等 性 运算 符 的 优先 级 低 于 关系 运算 符 。 













































































































































































































































































































































































































































































总 结 一 下 ，if (x != 0) { ...} 这 个 语 铝 的 计算 顺序 是 : 首先 求 x != 0 这 个 表达 式 的 值 ， 如 果 
值 为 0， 就 跳 过 人 } 中 的 语句 直接 执行 后 面 的 语句 ， 如 果 值 为 1， 就 完 执 行人 中 的 语句， 然后 再 执行 
后 面 的 语句 。 事 实 上 控制 表达 式 取 任 何 非 0 的 值 都 表示 真 值 ， 例 如 if (x) ( ... } 和 if (x l= 

0) { ... } 是 等 价 的 ， 如 果 x 的 值 是 2， 则 x != o 的 值 是 1， 但 对 于 if 来 说 不 管 是 1 还 是 2 都 表示 真 
值 。 


if 语 句 的 格式 为 : 



































































































































































































































在 C 语 言 中 ， 任 何 可 以 放 " 语 句 ” 的 地 方 都 既 可 以 是 一 条 语句 ， 也 可 以 是 由 {} 括 起 来 的 若干 条 语句 
a a. 如 果 是 语句 块 则 不 需要 在 人 后 面 加 ;号 。 如 果 } 后 面 加 

了 ;号 ， 则 这 个 ;号 本 身 又 是 一 条 新 的 语句 了 ， 在 C 语 言 中 一 个 单独 的 ;号 表示 一 条 空 语 句 。 上 例 的 
语句 块 中 只 有 一 条 语句 ， 也 可 以 简单 地 写成 : 





























































































































| A (x l= 0) 
: printf("x is nonzero.\n"); 

















语句 块 中 也 可 以 定义 局 部 变量 ， 就 像 函 数 体 一 样 。 例 如 : 








: void foo (void) 


E 4 

: iae 3b = Op 

{ 

: int i= 1; 

i aie 7 = 2p 

primen (Use, TS mW slo jg 

1 } 

printf (“i=sd\n", i); /* cannot access Jj here */ 
3 




















RR SSH eae RE CAPES, AREER ATRIA et oo ti IR], EU TA ASR ETC 

变量 j 的 存储 空间 。 语句 央 也 构成 一 个 作用 域 ， 如 末 整 个 源 文 件 是 一 张大 纸 ， foo PAREN TEL E 
的 一 张 小 纸 ， 则 函数 中 的 语句 块 是 贴 在 小 纸 上 面 的 张 更 小 的 级 。 语句 块 中 的 变量 i 和 函数 的 变 
oe 因此 两 次 打印 的 ij 值 是 不 同 的 ; 语句 块 的 变 轴 在 退 由 语 向 块 之 后 就 没有 
因此 最 后 一 行 的 pzintz 不 能 打印 变量 j， ft Weg TE de Huit. 从 这 个 例子 也 可 以 看 出 ， 语 句 块 
可 以 用 在 任何 允许 放 哺 名 的 地 方 ， ~ 导 用 在 if 语 名 中， 单独 使 用 语句 块 通常 是 为 了 定义 
一 些 比 函 数 的 局 部 变量 更 局 部 ” 的 变 


习题 


1 以 下 是 程序 篇 详 能 通过 ,执行 也 不 出 镭 ， 但 是 执行 结 加 不 正确 ( 帮 
试 "， 这 是 一 个 语义 错误 ) ， 请 分 析 一 下 哪里 锚 了 。 还 有 ， 既 然 错 了 为 人 
































































































































































































































































































































:if (x > 0); 
i primes (Use abs) BOSlETVvE. Wo) 7 





peel den Hen 
第 4 章 Xd 起 始 页 2. ifelse 语 向 


2. if/else i] 
ES 第 4 章 分 文 语句 正二 页 


2. if/else 语 句 


if 语句 还 可 以 带 一 个 else 子 句 (Clause) ,例如 : 


bongs (60 E. 50) 
: penner (Use sls mm Wo) eg 





primes (sz ale; ocel Wa) p 



























































这 里 的 % 是 取 模 (Modulo) 运算 符 ，xs2 表 示 x 除 以 2 所 得 的 余数 (Remainder) ，% 运 算 符 的 两 
个 操作 数 必 须 是 整 型 。 第 5 节 “ 表 达 式 " 讲 过 ， 如 果 / 运 算 名 村 的 两 个 操作 数 都 是 整数 ， 则 结果 是 两 
数 的 商 (Quotient) ,余数 总 是 舍 去 ， 因 此 有 如 下 结论 成 立 : a 和 b 是 两 个 整数 ，b 不 等 

FO, (a/b) A TER 
取 模 运算 在 程序 中 是 非常 有 用 的 ， 例 如 上 面 的 例子 判断 x 的 奇偶 性 (Parity) ， 看 x 除 以 2 的 余数 
是 不 是 0， 如 果 是 0 则 打印 x is even. ， 如 果 不 是 0 则 打印 x is oda., i 者 应 该 能 看 出 else 在 这 
里 的 作用 了 ， 如 有 果 上 面 的 例子 去 挥 else ,不管 x 是 奇 是 个 ，x is odd. 这 一 句 总 是 被 打印 。 为 了 
让 这 条 语句 更 有 用 ， 可 以 把 它 封 装 (Encapsulate) 成 一 个 函数 : 





















































































































































































































































i void Eee (aliene. 53) 


B4 

if (x % 2 == 0) 

: primei (Woe Sm 
: else 

: pemen (Us siey qxelel. aU) p 
i} 






































把 语句 封装 成 函数 的 基本 步骤 是 : TET AE eR AP, TR ABS. HE, Wa 
要 检查 一 个 数 的 奇偶 性 只 需 调 用 这 个 函数 而 不 必 重 复写 这 条 语句 了 ， 例 如 : 









































; print_ parity (17); 
; print_ parity (18); 





if/else 语 句 的 格式 为 : 
























































同样 道理 ， 其 中 的 “语句 " 既 可 以 是 一 条 语句 ， HAERE e 从 这 里 我 们 又 看 到 
了 组 合 规则 : 条 if 语 句 中 包含 一 条 子 语句 ， 条 if/else 语 句 中 包含 两 条 子 语句 ， 子 语句 可 以 
是 任何 语句 ， 当然 也 可 以 是 另外 一 条 1s 或 1f/else， 子 语句 还 可 以 是 人 } 括 起 来 的 语句 块 ， 其 中 又 

可 以 包含 任何 i B, 当然 也 可 以 包含 另外 一 条 if 或 if/else。 根据 组 合 规则 , ifHkif/elseH] Win 
套 使 用 。 例 如 可 以 这 样 : 





















































































































































re (Oy 
primer (Ue abs} Dose oi) p 
: else if (x < 0) 


printf("x is negative.\n"); 










‘else 
: [am (Use als) vXeus)o Wo) P 





iif (x > 0) { 
: printf("x is positive.\n"); 


p cure x 
; ade (qoe < 0) 
printf("x is negative.\n"); 
else 
prine (Use abe vaso Wal?) E 
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里 解 呢 ? 可 以 理解 成 




































































在 第 1 Ti “继续 Hello World" 中 讲 过 ， 在 C 语 言 中 缩 进 只 是 为 了 程序 员 看 起 来 方便 ， 实 际 上 对 编 
译 融 不 起 任何 作用 ， 你 的 代码 不 管 写成 上 面 哪 一 种 缩 进 格式 ， 在 编译 融 看 起 来 都 是 一 样 的 。 那 
么 编译 絮 到 底 认为 是 哪 一 种 理解 呢 ? 也 就 是 说 ，else 到 底 是 和 if (a) 配对 还 是 和 if (By 配对 
很 多 编程 语言 都 有 这 个 问题 ， 这 称 为 Dangling-else 问 题 。C 语 言 规 定 ，else 总 是 和 它 上 面 最 近 
的 一 个 ie 配 对 ， 因 此 应 该 理解 成 e1se 和 if (By 配对 ， 也 就 是 上 面 第 二 种 理解 。 如 果 你 写成 上 面 
第 一 种 缩 进 的 格式 就 很 危险 了 : 你 看 到 的 是 这 样 ， 而 编译 右 理 解 的 却 是 那样 。 如 果 你 希望 的 是 
第 一 种 理解 ， 应 该 明确 加 上 们 }: 
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2、 写 一 个 函数 ， 参 数 是 整数 x， 功 能 是 打印 参数 x 的 个 位 和 十 位 


TPA 





3. 布尔 代数 
a 78 4 3€ 4) i] 下 二 页 
3. 布尔 代数 


在 第 1 p 话语 铝 ? 讲 过 ，a<b<c 不 表示 b 既 大 于 a 又 小 于 c， 那 么 如 有 果 想 要 表示 这 个 合 义 怎么 办 
呢 ? 可 以 这 样 : 









































Ee nl 

































































我 们 也 可 以 用 逻辑 与 (Logical AND) 运算 符 表 示 这 两 个 条 件 同时 成 立 。 逻 辑 与 运算 符 在 C 语 言 
写成 两 个 & 号 (Ampersand) ， 上 面 的 语句 可 以 改写 为 : 









































i (ae Dee be cy 
: printf("b is between a and c.n"); 






























































对 于 a <b gs b < c 这 个 控制 表达 式 ， 要 求 a < b 的 值 非 0 并 且 b < < 的 值 非 0 这 两 个 条 件 同时 成 
立 ， 整 个 表达 式 的 值 才 为 1， 否 则 值 为 0。 也 就 是 只 有 两 个 条 件 都 为 真 ， 它 们 做 逻辑 与 运算 的 经 
果 才 为 真 ， 有 一 个 条 件 为 假 ， 则 逻辑 与 运算 的 结果 为 假 ， 如 下 表 所 示 : 






































































































































表 4.2. AND 的 真 值 表 


AIBIAANDB 
opo 

































































这 种 表 称 为 真 值 表 (Truth Table) . ZESARREN ERRARE, MBAR 
以 1 表示 真 以 0 表示 假 ， 我 们 忽略 这 些 细微 的 差别 ， 在 表 中 以 1 表示 真 以 0 表示 假 。C 语 言 还 提供 
了 逻辑 或 (Logical OR) 运算 符 ， 写 成 两 个 | 线 (Pipe Sign) , 2E (Logical NOT) 运算 
符 ， 写 成 一 个 ! 和 号 (Exclamation Mark) ， 它 们 的 真 值 表 如 下 : 




















































































































表 4.3. OR 的 真 值 表 























表 4.4. NOT 的 真 值 表 


ANGTA 
of | 
io | 
























































逻辑 或 表示 两 个 条 件 只 要 有 个 为 真 ， 它们 做 逻辑 或 运算 的 结果 就 为 真 ， 只 有 两 个 条 件 都 为 
假 ， e 果 才 为 假 。 逻 辑 非 的 作用 是 对 原来 的 条 件 取 反 ， 原 来 是 真 的 就 是 假 ， 原 来 
是 假 的 就 是 真 ， 这 个 运算 符 只 有 一 个 操作 数 ， 称 为 单 目 运算 符 (Unary Operator) ， 以 前 讲 过 
的 加 减 乘除 、 dh. 相等 性 、 关 系 、 逻 辑 与 、 逻 辑 或 都 有 两 个 操作 数 ， 称 为 双 目 运算 符 (Binary 
Operator) 。 


关于 真 值 的 逻辑 运算 称 为 布尔 代数 (Boolean Algebra) ， 以 它 的 创始 人 布尔 命名 。 在 编程 语言 
中 表示 T 值 和 F 值 的 数据 类 型 叫做 布尔 类 型 ， 在 C 语 言 中 通常 用 int 类 型 来 表示 ， 非 0 表示 T，0 表 
示 F 轨 。 布 尔 逻 辑 是 写 程序 的 基本 功 之 一 ， 程 序 中 的 很 多 错误 都 可 以 归 因 于 逻辑 错误 。 以 下 是 一 
些 布 尔 代数 的 基本 定理 ,为 了 简洁 易 读 ，T 和 F 用 1 和 0 表示 ，AND 用 * 号 表示 ， OR 用 + 号 表示 
(从 真 值 表 可 以 看 出 AND 和 OR 运 算 确实 有 些 类 似 * 和 +) ，NOT 用 -表示 ，x、y、z 的 值 可 能 

是 0 也 可 能 是 1。 
















































































































































































































































































































































































—-X2X 


x*0=0 
X+1=1 


x*1=x 
x+0=x 


X*X=X 
X+X=X 


X* 一 X=0 
X+7X=1 


X*yzy*x 
X+Y=V+X 


x"(y*Z)=(x"y)"Z 
X+(Y+Z)=(X+Y)+Z 


X*(Y+Z)=X*y+x"*Z 
X+y"Z=(X+y)*(X+Z) 


X+X*y=X 
x*(X+y)=X 


X*y+X*3y=X 
(x+y) "(x+7y)=x 


a(x"y)=aX+7Y 


1(X+Y) =x" Ty 


X+4X"y=X+y 
X"(aX+y)=x"y 


X*y+7X*Z+y"Z=X*y+Xx*Z 
(x+y) "(4x42)" (y*z)- Gy)" (^x«z) 


除了 第 1 行 之 外 ， 这 些 公 式 都 是 每 两 行 一 组 的 ， 每 组 的 两 个 公式 就 像 对 联 一 样 : 把 其 中 一 个 公式 
1 的 * 换 成 +、+ 换 成 *、0 换 成 1、1 换 成 0， 就 变 成 了 与 它 对 称 的 刀 一 个 公式 。 这 些 定 理 都 可 以 通 
过 真 值 表 证 明 ， 更 多 细节 可 参 XC oO SE 罗 辑 的 教材 ， 例 如 [数字 逻辑 基础 |。 我们 将 在 本 市 的 练 
习题 中 强化 训练 对 这 些 定理 的 理解 。 


HNES 绍 的 这 些 运 算 符 的 优先 级 顺序 是 : ! 高 于 */%， 高 于 +-， 高 于 >、<、>=、 高 
F==、! 上 =， 高 于 && ， 高 于 ||。 写 一 个 控制 表达 式 很 可 能 同时 用 到 这 些 运算 符 中 的 多 WRI 


不 清楚 运算 符 的 优先 级 顺序 一 定 要 套 括 导 。 不 过 这 几 个 运算 符 的 优先 级 顺序 是 有 —— Al 
为 你 需要 看 懂 别 人 写 的 不 套 括号 的 代码 。 


习题 


1、 把 代码 段 





























































































































































































































cu 









































































































































改写 成 下 面 这 种 形式 : 

























printf ("Test OK!\n"); 
: else if (x <= 0 && y > 0) 

| printf ("Test OK!\n"); 
: else 
: printf("Test failed!\n"); 





改写 成 下 面 这 种 形式 : 





oe && ) 
: printf("Test failed!\n"); 





printf ("Test OK!\n"); 








SS (6s < 1 ea l= 1) { 





















































进入 最 后 一 个 slss ，x 和 y 需 要 满足 条 件 ll 。 这 里 应 该 怎么 填 ? 







































































4、 以 下 哪 一 个 if 浏 断 条 件 是 多 余 的 可 以 去 掉 ” 这 里 所 谓 的 "多余 "是 指 ， 某 种 情况 下 如 果 本 来 应 该 
打印 rest og!， 去 掉 这 个 多 余 条 件 后 仍然 打印 rest or! ， 如 果 本 来 应 该 打印 rest faiiead!, Æ 
掉 这 个 多 余 条 件 后 仍然 打印 rest failed!o 















































(af (x<3 && y>3) 

: printf ("Test OK!\n"); 
: else if (x>=3 && y>=3) 

: printf ("Test OK!\n"); 
| else if (2z>3 && x>=3) 

i printf ("Test OK!\n"); 
: else if (z<=3 && y>=3) 

: printf ("Test OK!\n"); 





‘else 


printf ("Test failed!\n"); 









































[Z] C99 也 定义 了 专门 的 布尔 类 型 Bool， 但 是 没有 广泛 应 用 。 





下 一 页 


N= 
4. switch 语 句 





2. if/else 语 句 





4. switch 语 名 


switch 语 句 可 以 产生 具有 多 个 分 文 的 控制 流程 。 它 的 格式 是 : 
Ni OO 
‘case YEKAN: 语句 序列 














: case 常量 表达 式 : 语句 序列 
| default: 语句 序列 
: } 





例如 以 下 程序 根据 传 入 的 参数 1-7 分 别 打印 Monday-Sunday : 


例 4.1. switchi 
#include <stdio.h> 
void print_day(int day) 


switch (day) { 
case 1: 
printf("Monday\n"); 
break; 
— case 2: 
print uesday\n"); 
break; 
case 3: 
printf("Wednesday\n"); 
break; 
case 4: 
printf("Thursday\n"); 
break; 
case 5: 
printf("Friday\n"); 
break; 
case 6: 
printf("Saturday\n"); 
break; 
case 7: 
printf("Sunday\n"); 
break; 
default: 
printf("Illegal day number!\n"); 
break; 





} 
int main(void) 
print_day(2); 


return 0; 


} 

















如 采 传 入 的 参数 是 2， 则 day==2 ， 从 case 2 开始 执行 ， 也 就 是 从 控制 表达 式 == 常 量 表达 式 的 那 
条 case 开 始 执行 ， 先是 J 印 相应 的 信息 ， 然后 遇 到 break 语 人 向 ， 它 的 作用 是 跳出 村 个 switch 语 名 
块 。 C 语 言 规定 各 case 的 常量 表达 大 式 必须 互 不 相同 ， 如 果 控 制 表 达 式 不 等 车 于 任何 个 常量 表达 
3i. 则 从 aefault 分 支 开 始 执行 ， 通常 把 sefault 分 支 写 在 最 后 ， 但 不 是 必须 的 。 使 用 switch 语 何 
BERLE: 


1. case 后 面 跟 的 必 须 是 放量 表达 Pus 
必须 在 编译 时 计算 出 来 。 


2. 以 后 我 们 会 讲 到 ， 浮 点 型 是 不 能 精确 比较 相等 不 相等 的 。 因 此 C 语 言 规 定 case 后 面 跟 的 党 
量 表 达 式 的 值 必须 是 可 以 精确 比较 的 整 型 或 字符 型 。 


3. 进入 case 后 如 果 没 有 过 到 preak 语 句 就 会 一 ] Ef 下 执行 , 后 面 其 蔬 case 或 aefault 下 面 的 语 
向 也 会 被 执行 到 ， 直 到 遇 到 break ， 或 者 执行 到 整个 switch 语 句 块 的 末尾 。 通 常 每 
个 case 后 面 都 : Hl] 上 break 语 人 铝 ， 但 有 时 候 故意 不 加 break 来 利 用 这 个 特性 ， 例如 : 























































































































因为 这 个 值 

































































































































































例 4.2. 缺 break 的 switch 语 向 
#include <stdio.h> 
void print_day(int day) 
{ 


switch (day) { 
case 1: 


— case 2: 
case 3: 
case 4: 
case 5: 


printf("Weekday\n"); 

break; 
case 6: 
case 7: 

printf("Weekend\n"); 

break; 
default: 

printf("Illegal day number!\n"); 
break; 










} 
int main(void) 


print_day(2); 
return 0; 











switch 语 名 不 是 必 不 可 缺 的 ， 显然 可 以 用 一 组 i f..else if...else if...el sale 但 是 一 方面 
用 switch 语 句 会 使 代码 更 清晰 ， 男 一 方面 ， 有 时 候 编译 器 会 对 switeh 语 句 进 整体 优化 ， 使 它 比 
等 价 的 if/else 语 句 所 生成 的 目标 代码 效率 更 高 。 
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3. 布尔 代数 
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1. return 语 句 


Z Bii 4L ]— EU fEmain K? 数 使 用 return 语 句 ， 现在 是 时 候 全 面 深 入 地 学 习 一 下 了 。 在 有 返回 值 
的 函数 中 ，return 语 句 的 作用 是 提供 整 个 函数 的 返回 值 ， 并 结束 当前 函数 的 执行 。 在 没有 返回 
值 的 函数 中 也 可 以 使 用 return 语 句 ， 例 如 当 检 查 到 个 错 i 吴 时 提前 结束 当前 函数 的 执行 : 




























































































































































































: #include <math.h> 


i void print_logarithm(double x) 


Fil 

if (x <= 0.0) 

| printf("Positive numbers only, please.\n"); 
: return; 

| } 

: printf("The log of x is tf", log(x)); 

. 














XP ABC WAS ROUES TO, WAPATO NER En, PAIR eR ALT 
AR s SR Her, RAAK TONT HERTS, CETTE SERA Ja BIA AUR AR, BR 
地 结束 执行 返回 调用 者 。 注 意 ， 使 用 数学 函数 1og 需 要 包含 头 文件 math.n， 由 于 x 是 浮 点 数 ， 应 
该 与 同类 型 的 数 做 比较 ， 所 以 写成 0.0。 


在 第 2 35 “if/else 语 句 ” 我 们 定义 了 一 个 仿 查 奇 个 性 的 函数 ， 如 果 是 奇数 就 打印 x is oaa., 4 
果 是 偶数 就 打印 x is even.。 事 实 上 这 个 函数 并 不 十 分 好 用 ， 我 们 定义 一 个 检查 奇偶 性 的 函数 
往往 不 是 为 了 打印 两 个 字符 串 ; itx ， 而 是 为 了 根据 奇偶 性 的 不 同 分 别 执行 不 同 的 后 续 动作 。 
我 们 可 以 把 它 改 成 一 个 返回 布尔 值 的 函数 : 












































































































































































































































| int is even(int x) 


Et 

if (x $ 2 == 0) 
i return 1; 
i else 

| return 0; 
i } 


























有 些 人 喜欢 写成 return (1) ; 这 种 形式 也 可 以 ， 表 达 式 外 面 套 括号 表示 改变 运算 符 优 先 级 ， 在 这 
里 没有 任何 作用 。 我 们 可 以 这 样 调用 这 个 函数 : 


























| if (is even(i)) { 
i /* do something */ 
ELSE { 

| /* do some other thing */ 


i} 























返回 布尔 值 的 函数 是 一 w 在 程序 中 通常 充当 控制 表达 式 ， 函数 名 通常 带 
有 is 或 if 等 表示 判断 的 词 ， 函数 也 叫做 谓词 (Predicate) 。is_even 这 个 函数 写 得 有 点 嗓 
URS x $ 2 这 个 表达 Es m 直接 把 这 个 值 当 作 布 尔 值 返 回 就 可 以 了 : 

























































































ne is_even(int x) 
B 


return ! (x $ 2); 
































记 住 这 条 基本 原理 : AOR E MELAS Tee SCT BR SC Td ELS ELT] EI M E 
用 return 后 面 的 表达 式 来 初始 化 。 例 如 上 面 的 函数 调用 相当 于 这 样 的 过 程 : 
















































































i 变量 = !(x 

EI MO 

if (临时 变量 ) { /* 临时 变 量 用 完 就 释放 */ 
' /* do something */ 











m else { 


/* do some other thing */ 





























当 if 语句 对 函数 的 返回 值 做 判断 时 ， 函 数 已 经 退出 ， 局 部 变量 x 已 经 释放 ， 所 以 不 可 能 是 在 这 时 
候 才 计算 表达 式 ! (x 2) 的 值 的 ， 表达 式 的 值 必然 是 事先 计算 好 了 存在 个 临时 变量 里 的 ， 然 

后 函数 退出 ， oe if 语句 对 这 个 临时 变量 的 值 做 判断 。 注 意 ， 虽 然 函 数 的 返回 值 可 

以 看 作 是 一 个 临时 变量 ， 但 我 们 只 是 读 一 下 它 的 值 ， 读 完 值 就 释放 它 ， 而 不 能 往 它 里 面 存 新 的 

, PATA, EU Bein 回 值 不 是 左 值 ， 也 就 是 说 下 面 的 赋值 语句 是 非法 的 : 
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在 第 3 节 “ 形 参 和 实 参 "中 讲 过 ，C 语 言 的 传 参 规则 是 Call by Value ， 按 值 传递 ， 现 在 我 们 知道 返 
回 值 也 是 按 值 传递 的 ， 即 便 返 回 语句 写成 return x; ， 返回 的 也 是 变量 x 的 值 ， 而 非 变 TEXAS, 
因为 变量 x 马 上 就 要 被 释放 了 。 


在 写 带 有 return 语 名 的 函数 时 要 小 心 检 查 所 有 的 代码 路 径 (Code Path) 。 有 些 代 码 路 径 在 任何 
条 件 下 都 执行 不 到 ， 这 称 为 Dead Code ， 例 如 ， 如 果 把 && 和 || 运 算 符 记 混 了 (我 所 了 解 的 初学 
者 犯 这 个 低级 错误 的 不 在 少数 ) ， 写 出 如 下 代码 : 


















































































































































4 
























































i void foo(int x, int y) 


P 
: if (x >= 0 || y >= 0) { 
printf("both x and y are positive.\n"); 
return; 
} else if (z< 0 ll OE 
| printf("both x and y are negetive.\n"); 
return; 
} 
printf("x has a different sign from y.\n"); 
: } 











最 后 一 行 brintf 了 永远 都 没 机 会 被 执行 到 ， 是 一 行 Dead pede H Dead Code 就 一 定 有 Bug， 你 
写 的 每 一 行 代码 都 是 想 让 程序 在 某 种 情况 下 去 执 行 的 ， 你 不 可 能 故意 写 出 一 些 永远 不 会 被 执行 
的 代码 ， 如 果 程 序 在 任何 情况 下 都 不 会 去 执行 它 ， 说 明 跟 o 情况 不 一 样 ， 要 么 是 你 对 所 
有 可 能 的 博 况 分 析 得 不 正确 ， 也 就 是 逻辑 错误 ， 要 么 就 是 像 上 例 这 样 的 笔 误 ,语义 错误 。 还 有 
一 些 时 候 ， 对 程序 中 所 有 可 能 的 情况 分 析 得 不 够 全 面 将 导致 漏 掉 一 些 必 需 的 代码 路 径 ， 例 如 : 


‘int absolute_value(int x) 






































































































































































































































Ed 
i <0) 1 
return -x; 
} else if (x > 0) { 
return x; 
} 
Pj 

















这 个 函数 被 定义 为 返回 int ， 就 应 该 在 任何 情况 下 都 返回 int ， 但 是 上 面 这 个 程序 在 x==0 时 安静 
地 退出 函数 ， 什 么 也 不 返回 ，C 语 言 对 于 这 种 情况 会 返回 人 么 结果 是 未 定义 的 (Undefined) ， 
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IRENE, FREESE SS PRIMERAS FÉ. Fh, TERIA TBI 
把 - 当 负 号 用 了 而 不 是 当 减 号 用 ， BS E+ du DOXA. 1E/fa SEA IBA , MOH Se 
双 目 运算 符 ， 正 负 呈 的 优先 级 和 第 3 节 “布尔 代数 讲 的 逻辑 非 运 算 和 守 相同 ， 比 加 减 的 优先 级 要 



































































































































以 上 两 段 代 码 都 不 会 产生 编译 错误 ， 编 译 需 只 做 语法 检查 和 了 最 简单 的 语义 检查 ， 而 不 检查 程序 
的 逻辑 名 。 虽 然 到 现在 为 止 你 见 到 了 各 种 各 样 的 编译 器 错误 提示 ， 也 许 你 已 经 十 分 HT Raa at 
报错 了 ， 但 是 很 快 你 就 会 认识 到 ， 如 有 果 程 序 中 有 错误 编译 如 还 不 报错 ， 那 一 定 比 报错 更 糟糕 。 
比如 上 面 的 绝对 值 函数 ， 在 你 测试 的 时 候 运行 得 很 好 ， 也 许 是 你 没有 测 到 x==o 的 情况 ， 也 许 刚 
Te 你 的 环境 中 x==0 时 返回 的 不 确定 值 就 是 0， 然 后 你 放心 地 把 它 集 成 到 一 个 数 万 行 的 程序 之 
。 然 后 你 把 这 个 程序 交 给 用 户 ， 起 初 的 几 天 里 相安 无 事 ， 之 后 每 过 几 个 星期 就 有 用 户 报 告 说 
say 出 错 ， 但 每 次 出 错 的 现象 都 不 一 样 ， 而 且 这 个 错误 很 难 复 现 ， 你 想 让 它 出 现时 它 就 不 出 
I, 在 你 : 毫 无 防备 时 它 突然 又 冒 出 来 了 。 然 后 你 花 了 大 量 的 时 间 在 数 万 行 的 程序 中 排查 哪里 错 
了 ， 儿 天 之 后 终于 幸运 地 找到 了 这 个 函数 的 问题 ， 这 时 候 你 就 会 想 ， 如 果 当 初 编译 器 能 报 个 错 
多 好 啊 ! 所 以 ， 如 果 编 译 需 报错 了 ， 不 要 责怪 编译 需 太 过 于 挑剔 ， 它 是 在 帮 你 节省 省 大 量 的 调试 
时 间 。 男 外 ， 在 math.h 中 有 一 个 tabs 函 数 就 是 求 绝对 值 的 ， 我 们 通 销 不 必 有 自己 写 绝对 信函 数 。 


习题 
1、 编 写 一 个 布尔 函数 int is _leap_year(int year) , FI AB ear iE. 如 果 某 一 年 的 


年 份 能 被 4 整除 ， 但 不 能 被 100 整 除 ， 那 么 这 一 年 就 是 国 年 ， 此 外 ， 能 被 400 整 除 的 年 份 也 是 疼 
年 。 

















































































































































































































































































































































































































[8] 有 的 代码 路 径 没 有 返回 值 的 问题 编译 器 是 可 以 检查 出 来 的 ， 如 果 编 译 时 加 -wall 选 项 会 报警 








ca 
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2. 增 量 式 开发 


目前 为 止 你 看 到 了 很 多 程序 例子 ， 也 在 它们 的 基础 上 做 了 很 多 改动 ， 在 这 个 过 程 中 巩固 所 学 的 
知识 。 但 是 如 果 从 头 开始 编写 一 个 程序 解决 某 个 问题 ， 应 该 按 什么 步骤 来 写 呢 ?本 节 提 出 一 种 
增 量 式 (Incremental) 开发 的 思路 ， 很 适 EON. 


现在 问题 来 了 : 我 们 要 编 一 个 程序 求 平面 上 的 圆 的 面积 ， 圆 的 半径 以 两 个 端点 的 座 标 (x1， 
Vy ls 首先 分 析 和 分 解 问题 ， 把 大 问题 分 解 成 小 问题 ， 再 对 小 问题 分 别 求解 。 这 个 
问题 可 分 为 两 步 


1. 由 两 端点 座 标 求 半 径 的 长 度 ， 我 们 知道 平面 上 两 点 间距 离 的 公式 是 : 
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distance = V((x5-x4)*+(yo-y4)*) 


























fas FEA EB ABT LA Be Seat BIO GREECE, OP AR RT 以 用 math.n 中 
的 sqrt 阴 数 ， 因 此 这 个 小 问题 全 部 都 可 以 用 我 们 学 过 的 知识 解决 。 这 个 公式 可 以 实现 为 一 
个 函数 ， 参数 是 两 点 的 座 标 ， 返回 值 是 uistance。 


2. 上 一 步 算 出 的 距离 是 圆 的 半径 ， 已 知 圆 的 半径 之 后 求 面积 的 公式 
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area = Tiradius2 


也 可 以 用 我 们 学 过 的 C 语 言 表达 式 来 解决 ， 这 个 公式 也 可 以 实现 为 一 个 函数 ， 参 数 


是 radius ， 返回 值 是 area。 


首 移 编写 distance 这 个 函数 ， 我 们 已 经 明确 了 它 的 参数 是 两 点 的 座 标 ， 返 回 值 是 两 点 间距 离 ， 
可 以 先 写 一 个 简单 的 函数 定义 : 


: double distance(double x1, double yl, double x2, double y2) 
Pd 


















































elturn Or Ole 


i} 























初学 者 写 到 这 里 就 已 经 不 太 目 信 了 : 这 个 函数 定义 写 得 对 吗 ?” 虽 然 我 是 按 我 理解 的 语法 规则 写 
的 ， 但 书 上 没有 和 这 个 一 模 一 样 的 例子 ， 万 一 不 小 心 遗漏 了 什么 呢 ?既然 不 自信 就 不 要 再 往 下 
写 了 ， 没 有 一 个 平稳 的 心态 来 写 程序 很 可 能 会 引入 Bug。 所 以 在 函数 定义 中 搬 一 个 return 0.037 
刻 结束 掉 它 ， 然 后 立刻 测试 这 个 函数 定义 得 有 没有 错误 : 



































































































































dim main(void) 


T 


[emt (Smee ae Sila, chistamce(i,0, 2.0, 4.0, 6€.0»)59 
return 0; 











编译 ， 运 行 ， 一 切 正常 。 这 时 你 就 会 建立 起 信心 了 : 既然 没 问题 ， 就 不 用 管 它 了 ， 继 续 往 下 
写 。 在 测试 时 给 3 seal aE Cede JAR a ar te eq 
是 4.0， 因 此 两 点 间 的 距离 应 该 是 5.0 PRY 页 事先 知道 正确 答 案 是 5.0， 这 样 你 才能 测试 程序 运 
算 的 结 采 对 不 对 。 当 然 ， 现在 函数 还 没 实现 ， 运算 结果 肯定 是 不 对 的 。 现 在 我 们 再 往 函 数 里 添 



























































































































































: double distance (double x1, double yl, double x2, double y2) 


P 

doubleta = xoc ces 

double dy = y2 - yl; 

| printf("dx is %f\ndyis %f\n", dx, dy); 
return 0507 

A 









































如 有 果 你 不 确定 ax 和 和 ay 这样 初 始 化 行 不 行 ， 那 么 就 此 打住 ， 在 函数 里 搬 一 条 打印 语句 把 qx 和 ay 的 
打出 来 看 看 。 把 它 和 上 面 的 main 通 数 一 起 编译 运行 ， 由 于 我 们 事先 知道 结果 应 该 是 3.0 和 4.0， 
因此 能 够 验证 程序 算得 对 不 对 。 一 旦 验证 无 误 ， 函 数 里 的 这 人 句 打印 就 可 以 撤 掉 了 ， 像 这 种 打印 
H, URRH RKW main K 数 ， 都 起 到 了 类 似 脚 手 架 (Scaffold) 的 作用 : 在 六 房子 时 很 
有 用 ， 但 它 不 是 房子 的 一 部 分 ， 房 子 盖 好 之 后 就 可 以 拆 掉 了 。 房 子 盖 好 之 后 可 能 还 需要 维修 、 

加 盖 、 翻 新 ， 又 要 再 加 上 脚手架 ， 这 很 腑 烦 ， 要 是 当初 不 用 拆 就 好 了 ， 可 是 不 拆 不 行 ， 不 拆 多 
难看 啊 。 写 代码 却 可 以 有 一 个 更 高 明 的 解决 办 法 : 把 Scaffolding 的 代码 注释 掉 


: double distance (double x1, double yl, double x2, double y2) 
P 









































































































































































































































































































































double dx = x2 - xl; 

double dy = y2 - yl; 

Ue oan (Wek cus xi inchs: Suis wen bx, chy))p v7 
en 
























































这 样 如 果 以 后 出 了 新 的 Bug 叉 需要 跟踪 调试 时 ， 还 可 以 把 这 句 重 新 加 进 代 码 中 使 用 。 两 点 的 x 座 
标 和 y 座 标 距离 都 没 问 题 了 ， 下 面 求 它们 的 平方 和 : 


















































: double distance (double x1, double yl, double x2, double y2) 


P4 

: double dx = x2 - xl; 

| double dy = y2 - yl; 

: double dsquared = dx * dx + dy * dy; 
: printf ("dsquared is %f\n", dsquared); 
TETU NEONO, 

: } 























然后 再 编译 、 运 行 ， 看 看 是 不 是 得 25.0。 这 样 增 量 式 地 开发 非常 适合 初学 者 ， 每 写 一 行 代 人 码 都 
编译 运行 ， 确 保 没 问题 了 再 写 一 下 行 ， 这 样 一 方面 在 写 代码 时 更 有 上 自信 ， 男 一 方面 便于 调试 : 
总 是 有 一 个 先前 的 正确 版 本 做 参 照 ,一旦 运行 出 了 问题 ， 几 乎 可 以 肯定 是 刚才 添 的 那 一 行 代码 
出 了 问题 ， 避 免 了 从 很 多 行 代码 中 去 查找 分 析 到 底 是 哪儿 出 的 问题 。 在 这 个 过 程 中 printf 功 不 
可 没 ， 你 怀疑 哪 一 行 代 码 有 问题 ， 就 插 一 个 printf 进 去 看 看 中 间 的 计算 结果 ， 任 何 错误 都 可 以 
通过 这 个 办 法 找 出 来 。 以 后 我 们 会 介绍 程序 调试 工具 gdb， 它 提供 了 更 多 的 调试 功能 帮 你 分 析 更 
ea 但 即使 有 了 gdb， printf 这 个 最 原始 的 办 法 仍然 是 最 简单 、 最 有 效率 的 。 最 后 一 
， 我 们 完成 这 个 函数 : 



































































































































































































































































































































ff] 5.1. distancer žít 


: #include <math.h> 
: #include <stdio.h> 


: double distance (double x1, double yl, double x2, 


: double y2) 

P4 

double dx = x2 - xl; 
double dy = y2 - yl; 


double dsquared = dx * dx + dy * dy; 
double result = sqrt (dsquared); 





return result; 


可 


ne main (void) 
Ed 
i primen (Vebisicanee sis CE wol. clisicaineea (Lo. 2.0, 
D UU 

E return 0; 


i 

















然后 编译 运行 ， 看 看 是 不 是 得 5.0。 随 着 编程 经 验 越 来 越 丰富 ， 你 可 能 每 次 写 若 干 行 代码 再 一 起 
测试 ， 而 不 是 像 现在 这 样 每 写 一 行 就 测试 一 次 ， 但 不 管 怎 么 样 ， 增 eet 路 是 很 有 用 
的 ， 它 可 以 节省 你 大 量 的 调试 时 间 ， 不 管 你 有 多 强 ， 都 不 应 该 一 口气 写 完 整个 程序 再 编译 运 
行 ， 那 几乎 是 一 定 会 有 Bug 的 ， 到 那 时 候 再 找 Bug 就 很 难 找 了 。 


这 个 程序 中 引入 了 很 多 临时 变量 : ax、 dy. dsquared、 result, 如 果 你 有 信心 把 整个 表达 式 一 次 
性 写 好 ， 也 可 以 这 样 : 
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: double distance (double x1, double yl, double x2, double y2) 
: { 
: MSC ue Sener ( (HA) c (DEZ) de Q(QwAewd = (E—w1))B 


i} 




































































这 样 写 简洁 得 多 了 。 但 是 如 果 出 错 了 呢 ? 只 知道 是 这 一 长 串 表 达 式 有 错 ， 但 根本 不 知道 错 在 
哪 ， 而 且 整 个 函数 就 一 个 语句 ， 插 printf 都 没 地 方 插 。 所 以 用 临时 变量 有 它 的 好 处 ， 程 序 更 清 
晰 ， 调 试 更 方便 ， 而 且 有 时 候 可 以 避免 不 必要 的 计算 ， 例 如 上 面 这 一 行 表 达 式 要 把 (x2-x1) 计 算 
两 通 ， 如 末 算 完 (x2-x1) 后 把 结 末 存 在 一 个 临时 变量 dx 里 ， 就 不 需要 再 算 第 二 过 了 。 


接 下 来 编写 area 这 个 函数 : 

























































































































































































































































































: double area (double radius) 
im 


cecuri 3) IAG = om € sce\olanibissy 


E 























给 两 点 的 座 标 求 距 离 ， 给 半径 求 圆 的 面积 ， 这 两 个 子 问 题 都 解决 了 ， 如 何 把 它们 组 合 起 来 解决 
整个 问题 呢 ? 给 出 半径 外 两 器 点 座 标 (1.0， 2.0) 和 (4.0， 6.0) 求 圆 的 面积 ， 456HlaistancePR ZG H 
半径 的 长 度 ， 再 把 这 个 长 度 传 给 area 冰 数 : 


distance Gls Ole d OPES 
area (radius); 










































































‘ double radius 
: double result 









































我 们 一 直 把 “给 半径 两 端点 的 座 标 求 圆 面积 "这 个 问题 当 作 整 个 问题 来 看 ， 如 果 它 也 是 一 个 更 大 的 
程序 当中 的 子 问题 呢 ? 我 们 可 以 把 先前 的 两 个 函数 组 合 起 来 做 成 一 个 新 的 函数 以 便 日 后 使 用 : 






















































































! double area point(double x1, double yl, double x2, double y2) 
ae 
i return area (distance (x1, yl, x2, y2)); 


i) 








还 有 一 种 组 合 的 思路 : 不 是 于 





语句 组 合 到 一 起 : 


























distance flarea WIT Ef 数 调 用 组 








把 那 两 个 函数 中 的 


: double area point (double x1, 


i 


double 


return 


doubler ds c > 
double dy = y2 - yl; 
weckus = Senne (eb = Chs s chy ~ chy) Pp 


double yl, 


Odd odds sd c s 


double x2, 


double y2) 























这 样 组 合 是 不 理想 的 。 这 样 组 合 了 之 后 ， 原 来 写 的 aistance 和 area Fi - EQUIS ] Ne? d 
































Biaistancefllarea lH] 
— H f£aistancePK ZA 




















护 重 复 的 代码 是 非常 容易 出 错 的 ， 在 任 
PARRE. EPR 





前 写 的 代码 ， 避 免 写 





TRAN BE TM, AKAMA 
WE? area_point 把 所 有 语句 都 写 在 一 起 ， 
时 也 保留 这 area, point 怎么 样 呢 ? area _point F 





















































有 些 情况 只 需要 求 两 点 间 的 


AARET, 




































































在 解决 第 一 个 大 问题 时 可 以 用 这 些 函数 ， 








! 发 现 了 Bug， 或 者 : 
仅 要 修改 aistance， ee 


























FEE, 要 修改 area 也 于 





























MENTAH, 1 






































而 area_point 是 一 个 





解决 问题 的 过 程 是 把 大 的 问题 分 成 小 的 问题 ， 
的 体现 就 是 : 函数 是 分 
FRK, ERROR] 


























数 都 可 以 被 更 上 一 层 的 函数 调用 ， 最 终 所 有 的 函 





图 5.1. 函数 的 分 层 设计 


ZN: 
eS 


1. returni£ 4] 












慨 设 计 的 。 Eure ee 























ES, RA 
满足 不 了 这 





























要 给 定 半径 长 度 求 圆 面积 
文 样 的 要 求 。 如 采 保 
laistance 有 相同 的 代码 ， 

































































升级 qistance 这 个 了 洱 数 采用 更 高 的 计 精度 ， 那么 不 
UE ME area point, 维 








BOR TES. AUC, SIR 
下 解决 各 种 小 问题 的 代码 封闭 成 函数 ， 


E 复 用 (Reuse) 以 

















小 的 问题 再 分 成 更 小 的 问题 
函数 ， 解 决 一 些 很 小 的 问题 ， 























用 底层 函数 来 
数 都 直接 或 加 





rm ^ 
eee 








在 解决 第 二 个 大 问题 时 可 以 复 用 这 些 函 数 。 




















这 个 过 程 在 代码 中 
































决 更 大 的 问题 ， 底 层 和 上 层 孙 











feet main AAA. A PRAE 


3. 递归 


3. 递归 





第 5 革 YR) BL PR 


3. 3&1H 


如 果 定 义 一 个 概念 需要 用 到 这 个 概念 本 身 ， 我 们 称 它 的 定义 是 递归 的 〈Recursive) 。 例 如 : 
































frabjuous 
an adjective used to describe something that is frabjuous. 


这 只 是 一 个 玩笑 ， 如 果 你 在 字典 上 看 到 这 人 么 一 个 词 条 肯定 要 怒 了 。 然 而 数学 上 确实 有 很 多 概念 
是 用 它 自己 来 定义 的 ， 比 如 n 的 阶乘 (Factorial) 是 这 样 定义 的 : n 的 阶乘 等 于 n 乘 以 n-1 的 阶 
乘 。 如 果 这 样 就 算 定 义 完 了 ， 和 臣民 跟 上 面 那 个 词 条 有 异曲同工 之 妙 了 : n-1 的 阶乘 又 是 什么 ? 
是 n-1 乘 以 n-2 的 阶乘 。 那 n-2 的 阶乘 呢 ? 这 样 下 去 永远 也 没完 。 因 此 需要 和 定义 一 个 最 关键 的 基础 
条 件 (Base Case) : 0 的 阶乘 等 于 1。 




















































































































































































































因此 ，3!=3*2!，2!=2*11，1!=1*0!=1*1=1， 正 因为 有 了 Base Case ， 才 不 会 永远 没完 地 数 下 去 ， 
有 了 1! 的 结果 我 们 再 反 过 来 算 回 去 ，2!=2*1!=2*1=2，3!=3*2l=3*2=6。 下 面 我 们 用 程序 来 完成 这 

计算 过 程 。 我 们 要 写 一 个 计算 阶乘 的 函数 factorial ， 和 以 前 一 样 ， 首 先 确定 参数 应 该 是 int 型 
的 ， 返 回 值 也 就 是 计算 结果 也 应 该 是 int 型 的 。 先 把 Base Case 这 种 最 简单 的 情况 写 进 去 : 


































































































































































































aint factorial (int n) 


T 


alice (jo == 0) 
perunni 














如 果 参 数 n 不 是 0 应 该 return 什 么 呢 ? 根据 定义 ， 应 该 return n*factorial(n-1);, 为 了 下 面 的 分 
析 方 便 我 们 引入 几 个 临时 变量 把 这 个 语句 拆 分 一 下 : 





























| dude factorial(int n) 


Pd 

if (n == 0) 

i return 1; 

else { 

int recurse = factorial(n-1); 
: lae resulte = in * euse, 
return result; 

1 } 

- 


























factorial 这 个 函数 居然 可 以 自己 调用 自己 ”是 的 。 自 己 直接 或 间接 调用 自己 的 函数 称 为 递归 函 
数 。 这 里 的 factorial 是 直接 调用 自己 ， 有 些 时 候 函 数 A 调 用 函数 B， 函 数 B 叉 调用 函数 A， 也 就 

是 函数 A 间接 调用 自己 ， 这 也 是 递归 函数 岂 。 如 果 你 觉得 迷惑 ， 可 以 把 factorial (n-1) 这 一 步 看 
成 是 在 调用 另 一 个 函数 一 一 另 一 个 有 着 相同 函数 名 和 相同 代码 的 函数 ， 调 用 它 就 是 路 到 它 的 代 

但 里 执行 ， 然后 再 返回 factorial tn-1) 这 个 调用 的 下 一 步 继 续 执 行 。 我 们 以 factorial (3) 为 例 分 
析 整 个 调用 过 程 ， 如 下 图 所 示 : 





















































































































































































































































图 5.2. factorial(3) 的 调用 过 程 
int main(void) main() main() 
{ 











A 
int result = factorial(3); : 
se printf("%d\n", result); : 
return 0; : 
} s 
int factorial (int n) main() main() 
{ if (n == 0) recurse: 2 
factorial(3) Lresult: 3*2 factorial (3) 
retum 1; 
else { 
int recurse — factorial(n-1); 
| aes int result = n * recurse; 
lins Penn retum result; 
: } 
} 
int factorial (int n) main() main() 
{ if (n m 0) recurse: 
i sium T: ——— factorial (3) factorial (3) 
: else { recurse: 
: int recurse = factorial(n-1); Lresult: factorial(2) factorial (2) 
H ss... : sessosceses| int result =n* recurse; 
i PETTEE . retum result; i 
} : 
} 










result: 


int factorial (int n) main() - main() 

|o 'am--0 
: Dm factorial (3) [result: factorial (3 
: retum 1; 6) n: 2 = 

int recurse = factorial(n-1); factorial(2) Lresult: factorial(2) 
.. > int result = n * recurse; 
-- i — " retum result; factorial (1) (result; 1* factorial (1) 

Po] A 


int factorial (int n) main() 





{ 
: if (n == 0) 
pee sosoee retum 1: factorial(3) 
else { : 
int recurse = factorial(n-1); factorial(2) ........ s 
int result = n * recurse; 
i retum result; factorial(1) 
} factorial (0) 

















AE ASCE AEN VA, HERAK, XL Eo EY AAA SR F e 
用 的 局 部 变量 的 变化 情况 。 


1. main () 有 一 个 局 部 变量 resuit， 用 一 个 框 表示 。 


2. 调用 factorial (3) 时 要 分 配 参数 和 局 部 变量 的 存储 空间 ， 于 是 在 main() 的 下 面 又 多 了 一 个 
框 表 示 factorial (3) 的 参数 和 局 部 变量 ， 其 中 n 已 初始 化 为 3。 
















































































3. factorial (3 
在 main () 和 factorial (3 ) 下 I x m 了 一 个 框 。 
用 函数 时 分 配 参 数 和 局 部 变 量 的 存储 空间 ， 退出 函数 时 释放 它们 的 存 信 空 
间 。 factorial ( 3) 和 factorial (2) 是 两 次 不 同 的 调 H , factorial (3) 的 参 












































) 又 调用 factorial(2) ， 又 要 分 本 factorial (2 ) Re 数 和 局 部 变 ^ut, 于 是 
gi Hi 讲 过 ， 每 次 调 
























































Winfilzacterial(? Méca iunt 的 空间 ， 虽 然 它们 的 变量 名 相同 都 是 n， 虽 然 我 们 
























































写 代 但 时 只 写 了 一 次 参数 n， cro 同 的 参数 n。 并 且 由 于 调 
用 factorial (2) E e 还 没 退出 ， 所 以 两 个 函数 的 参数 n 同 时 存在 ， 所 以 在 原来 的 
基础 上 多 画 一 个 框 。 


















































4. 依 此 类 推 ， 














请 读者 对 照 着 图 所 TRUE SU 用 过 程 。 前 面 我 们 用 数 













































































学 公式 计 


3! 的 过 程 是 一 样 i, ; 都 是 一 步 步 展 开 然 后 再 一 步 步 收回 去 。 
































我 们 看 图 右边 表示 存储 空间 的 框 的 变化 过 程 ， 随 着 函数 调用 的 层 层 深入 ， 存 储 空间 的 一 端 逐 渐 


增长 ， 然 后 随 着 
据 结 构 。 它 的 特 

















前 数 的 层 层 退出 ， 存 储 空间 的 这 一 端 义 逐渐 缩短 ， 这 是 一 种 具有 特定 性 质 的 数 
性 就 是 只 能 在 某 一 端 增长 或 缩短 ， 并 且 每 次 访问 参数 和 局 部 变量 时 只 能 访问 这 





























一 末端 的 单元 ， 而 不 能 访问 内 部 的 单元 ， 比 如 当 factorial (2) 的 存储 空间 位 于 末端 时 ， 只 能 访问 

















它 的 参数 和 局 部 变量 ， MAB 访问 factorial (3 ) 和 main () 的 参 数 和 局 部 变量 。 具有 这 种 性 质 的 数 
据 结 构 称 为 堆栈 或 栈 (Stack) o 每 个 函数 调用 的 参数 和 局 部 变 I c 2 ] (图 里 的 一 个 小 方 




















HE) 称 为 一 个 本 














个 栈 空间 里 分 配 栈 帧 ， 函 数 返 回 时 就 释放 栈 帧 。 
在 写 一 个 递归 通 数 时 ， 你 如 何 证 明 它 是 正确 的 ? 像 上 面 那样 跟踪 函数 的 调用 和 返回 过 程 算是 

















种 办 法 ， 但 只 是 























iji (Stack Frame) 。 系 统 为 每 个 程序 的 运行 预 留 了 栈 空 间 ， 郴 数 调用 时 就 在 这 



























































factorial (3) 就 已 经 这 么 麻烦 了， 如 果 是 factorial(100) 呢 ? 昌 然 我 们 已 经 证 明 
































T factorial (3) 是 正确 的 ， 因为 它 跟 我 们 用 数学 公式 计算 的 过 程 样 ， 结 果 也 一 样 ， 但 这 不 能 代 








$ factorial (100) 的 证 明 ， 你 怎 AJ ? pIJ HI PR 数 你 可 以 跟踪 它 的 调用 过 程 < 证 明 已 的 正确 性 ， Al 













































































为 每 个 函数 都 调用 一 次 就 返回 了 ， 但 是 对 于 递归 函数 ， 这 么 跟 下 只 会 跟 得 你 头 都 大 了。 事实 






































上 并 不 是 每 个 函数 调用 都 需要 钻 进去 看 的 。 我 们 在 调用 printf 时 没有 钻 进 去 看 它 是 怎么 打印 








的 ， 我 们 只 是 相 
ts 我 们 写 了 ai 

















音 它 能 打印 ， 能 正确 完成 它 的 工作 ， 然后 就 继续 写 下 面 的 代码 了 。 在 上 一 
stance 和 area 国 数 ， 然后 立刻 测试 证 明了 i 这 两 个 函数 是 正确 的 ， 然后 我 们 


























写 area_point 时 调用 ] 这 两 个 函数 : 


returen 


area (distance (x1, yl, x2, y2)); 


























吗 不 需要 ， 因 






































在 写 这 一 句 的 时 候 ， 我 们 需要 钻 进 aistance 和 area 函 数 中 去 走 一 遍 才 知道 我 们 调用 得 是 否 正 确 





























为 我 们 已 经 Ala ix PTS RA EIER TET, 也 就 是 把 座 标 传 给 aistance 它 能 返 














回 正确 的 距 离 ， 
该 是 正确 的 。 


结论 。 








在 写 与 factorial (n 

















dE 半径 传 给 area 它 能 返回 正确 的 面积 ， 因 此 调用 它们 去 完成 另外 一 件 工 作 也 应 
这 种 “相信 ? 称 为 Leap of Faith ， 首 先 相信 一 些 结论 ， 然 后 再 用 它们 去 证 明 另 外 一 些 













































































) 的 代码 时 写 到 这 个 地 方 : 


‘int recurse = factorial(n-1); 
; int result = n * recurse; 











这 时 ， 如 果 我 们 相信 factorial (n-1) 是 正确 的 ， 也 就 是 传 给 它 na-1 它 就 能 返回 (n-1)!， 那 
么 recurse 就 是 (n-1)!， 那么 resuit 就 是 n*(n-1)!， 也 就 是 nl， 这 正 是 我 们 : M 
的 factorial n) 的 结果 。 当 然 这 有 点 奇怪 : 我 们 还 没 写 完 factorial 这 个 函数 ， |- 么 要 相 








你 正在 写 的 递归 
正确 的 ， 从 而 值 入 








信 factorial (n-1) 是 正确 的 ?可 Leap of Faith 本 身 就 是 Leap (KER) 的 
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如 采 你 相信 
, MACHA 


























KIEM, FAA, ZA CELA E5552 T 35 1H R2 
导 你 相信 它 正 确 。 




















这 么 说 好 像 有 点 儿 玄 ， 我 们 从 数学 EF 
Ts factorial ( 


eni ob ak UAL, 那么 我 们 的 函数 实现 就 














“ 格 证 
ny 的 正确 性 依赖 于 factoria 




















正确 性 就 


AE 


HA factorial ( 
HH factorial (0 
H)4) x return Lys 这 个 1 是 我 们 杠 
因此 factorial (2 
纳 法 (Mathematical Induction) , 


确 ， 
的 数学 归 
Case iE fff, 








ERRAN IE. WF 
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证 明 factorial (n-1) 的 正确 性 ， 





明 一 į factorial RK] 
1(n-1) 的 正确 性 只 
是 正确 的 。 因 此 要 证 


UE EHH factorial ( 




















RAE 正确 ， 
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(n-2) 的 正确 性 ， 依 此 类 推 下 去 ， 
) 的 正确 性 。 Mi tactorial (0 
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最 后 是 : HEHH factorial (1) 





y 的 正确 性 不 依赖 于 VAP, VE 


RECHTE 和 性。 刚才 说 


的 正确 性 就 
的 正确 性 就 
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) 也 正确 ， 依 此 类 推 











最 后 factorial(n ) 也 是 正确 的 。 


其 实 这 就 
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Wie Ss 纳 法 来 证 明 只 需要 证 
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TÉ factorialbK Zi 
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定 要 记得 写 Base Case, ANEY 
8 J Base Case: 
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明 两 点 : Base 
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使 递 推 关 








oe 
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Lactoria M(N) 


int recurse = factorial (n-1); 


int result 
return result; 


ng se uS cl? 








e es 


到 目前 为 止 
备 的 ， 它 本 
学 的 这 些 特 ; 
的 ， 现 在 学 
说 循环 还 没 
用 循环 能 做 
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数 就 会 
这 称 为 无 穷 递 归 


永远 调用 下 
(Infinite recursion) 。 














直到 系统 为 程序 预 留 的 栈 空间 
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我 们 只 学 习 了 全 部 C 语 言语 法 的 
喘 就 可 以 作为 一 门 编程 语言 了 ， 

















个 小 的 子 集 ， 但 是 现在 应 该 
以 后 还 : 
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学 很 多 的 C 语 言 
































性 来 代替 。 也 就 是 说 ， 以 后 要 
的 这 些 已 经 完全 和 窗 盖 了 第 1 节 
讲 到 呢 ， 是 的 ， 
的 事 用 递归 





Elk, ZIRIA, 
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循环 下 一 章 才 讲 ， 


言 特性 使 得 写 
I HJE =” 


讲 的 五 种 基本 指 
是 有 一 个 重 : 


i 的 结论 就 是 递归 
事实 上 有 的 编程 语言 (如 某 
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计算 机 上 运 
特性 ， 但 也 
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了 的 高 级 语言 写 的 程 月 
只 


ZN 


























NCH TAR EL. EA 
当然 也 不 可 能 做 到 更 多 的 
是 为 做 这 些 事情 提供 一 些 方便 。 那 么 ， 为 什么 计算 
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告诉 你 : 这 
了 性， 但 全 部 都 可 以 用 已 经 
旦 序 更 加 方便 ， 但 不 是 必 不 可 少 


些 LISP) ! 
循环 (或 递归 
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机 是 这 样 设计 的 ? 为 什么 想 至 
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如 Alan Turi 
兴趣 的 读者 
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更 多 或 
机 还 没有 诞生 的 年 

















者 更 少 ?这 些 : 
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功 于 早期 的 计算 机 科学 家 ， 例 





























ues: 
例如 [IATLC]。 


论 上 为 计算 机 的 设计 指明 了 方向 。 有 








是 为 解决 一 些 奇 技 泽 巧 的 数学 题 用 的 《例如 很 多 编程 书 都 能 碍 到 的 汉 诡 其 问题 ， 
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这 种 无 实际 意义 的 题目 ) ， 
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吾 言 的 语法 时 已 经 看 到 和 
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因为 函数 调 
。 if/else 是 用 两 个 子 语句 定义 的 ， 子 语句 义 是 用 if/else 定 义 的 ， 
可 见 编译 器 在 翻译 我 们 写 的 程序 时 一 定 也 用 了 大 量 的 递归 。 


是 [Dragon Book]. 














也 是 表达 式 的 一 种 。 

















数 求 两 个 正 整 
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1. 如 


Ra 除 以 b 能 





BÆ 


计算 机 的 精髓 所 在 ， 








的 精髓 所 在 。 我 





























定义 了 ， 例 如 : 

















而 表达 式 又 是 用 通 

















数 调用 定义 





因为 if/else 也 是 语句 的 一 种 。 














玫 数 a 和 b 的 最 大 公约 数 (GCD, Greatest Common Divisor) , 


整除 ， 则 最 大 公约 数 是 b。 


有 关 编 译 器 的 原 到 








最 经 典 的 参考 书 











使 


2. 否则 ， 最 大 公约 数 等 于 b 和 a%eb 的 最 大 公约 数 。 
Euclid 算 法 是 很 容易 证 明 的 ， 请 读者 自己 证 明 一 下 为 什么 这 么 算 就 能 算出 最 大 公约 数 。 


2、 编 写 递 归 浮 数 求 Fibonacci 数 列 的 第 n 项 ， 这 个 数列 是 这 样 定 义 的 : 











































































































fib(1)=1 
fib(n)=fib(n-1)+fib(n-2) 


上 面 两 个 看 似 写 不 相干 的 问题 之 间 却 有 一 个 有 意思 的 联系 : 























Lamé 定 理 






























































如 果 Euclid 算 法 需要 k 步 来 计算 两 个 数 的 GCD， 那 么 这 两 个 数 之 中 较 小 的 一 个 必然 大 于 等 
于 Fibonacci 数 列 的 第 k 项 。 


感 兴趣 的 读者 可 以 参考 [SICP] 第 1.2 节 的 简略 证 明 。 





















































[2] A 调 用 B，B 又 调用 A， 两 个 函数 都 要 用 到 对 方 ， 把 哪个 函数 定义 在 前 面 也 不 对 ， 那 怎么 办 
呢 ? 以 后 讲 到 函数 的 声明 就 可 以 解决 这 个 问题 。 
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第 6 章 循环 语句 





第 6 章 循环 语句 
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1. while 语 句 

2. do/while 语 句 

3. for 语 句 

4. break 利 continue 语 句 
5. LEBER 


6. gotoi#t] 


1. whilei£4] 
上 一 页 第 6 章 循环 语 向 EA 


1. while 语 名 


aor 我 们 介绍 了 用 递归 求 nl 的 方法 ， 其 实 每 次 递归 调用 都 是 在 重复 做 同样 一 件 
事 ， 就 是 把 n 乘 到 (n-1f)! 上 然后 把 结果 返回 。 虽 说 是 重复 ， 但 每 次 做 都 稍微 有 一 点 区 别 (n 的 值 不 
一 样 ) ， 这 种 每 次 都 有 点 区 别 的 重复 工作 称 为 迭代 (lteration) 。 我 们 使 用 计算 机 的 主要 目的 之 
一 就 是 让 它 做 重复 友 代 的 工作 ， 因 为 把 一 件 工作 重复 做 成 于 上 万 次 而 不 出 错 正 是 计算 机 最 擅长 
的 ， 也 是 人 类 最 不 擅长 的 。 Fifa CU B Re BOREAS. T , 但 C 语 言 提供 了 循环 语句 使 迭代 程序 写 
起 来 更 方便 。 例如 factorial 用 while 语 句 可 以 写成 : 

























































































































































































































































































ime factorial ime m) 
bx 


int result = 1; 


r 
while (n > 0) { 
result = result * n; 
in = in MIN? 


} 


return result; 











像 1f 语 名 一样 ，while 由 一 个 控制 表达 式 和 一 个 子 语句 组 成 ， 子 语句 可 以 是 由 若干 条 语句 组 成 的 
TAA. WMR ga 子 语句 就 被 执行 ， 然 后 再 次 测试 控制 表达 式 的 值 ， 如 果 还 
是 真 ， 就 把 子 语 铝 再 执行 一 这 ， 再 测试 控制 表达 式 的 值 ere 这 种 控 制 流程 称 为 循环 (Loop) , 
子 语句 称 为 循环 体 。 如 果菜 次 测试 空 制 表 达 式 的 值 为 假 ， 就 跳出 循环 执行 后 面 的 return 语 
句 ， 如 果 第 一 次 测试 控制 表达 式 的 值 就 是 假 ， 那 么 直接 跳 到 return 语 句 ， 循 环 体 一 次 都 不 执 
行 。 































































































































































































变量 result 在 这 个 循环 中 的 作用 是 累加 器 (Accumulator) ， 把 每 次 循环 的 中 间 结 果 累 积 起 来 ， 
循环 结束 后 得 到 的 累积 值 就 是 最 终结 果 ， 由 于 这 个 例子 是 用 乘法 来 累积 的 ， 所 以 result 初 值 
H1, WR AL FA EK BA R 那 么 result 初 值 应 该 是 0。 变量 n 是 循环 变量 (Loop Variable) ， 每 次 
循环 要 改变 它 的 直 ， 在 控制 表达 式 中 要 测试 它 的 值 ， 这 两 点 合 起 来 起 到 控 制 循环 的 次 数 的 作 
用 ， 在 这 个 例子 中 nm 的 值 是 递减 的 ， 有 些 循环 则 采用 递增 的 循环 变量 。 这 个 例子 具有 一 定 的 典型 
性 ， 累 加 器 和 循环 变量 这 两 种 用 法 在 循环 中 都 很 常见 。 


FDL, JH 能 解决 的 问题 用 循环 也 能 解决 ， 但 解决 问题 的 思路 不 一 样 。 用 递归 解决 这 个 问题 靠 
的 是 递 推 关系 nl=n.(n-1)!， 用 循环 解决 这 个 问题 则 更 像 是 把 这 个 公式 展开 了 : nl=n-(n-1)-(n- 
2)……3.2.1。 把 公式 展开 了 理解 会 更 直观 一 些 ， 所 以 有 些 时候 循 环 程序 比 递归 程序 更 容易 理解 。 
但 有 些 时 候 要 把 公式 展开 是 非常 复杂 的 甚至 是 不 可 外 E 的 ， 反 倒是 递 推 关系 更 直观 一 些 ， ERR 
况 下 递归 程序 比 循环 程序 更 容易 理解 。 此 外 还 有 一 RNA: 看 图 5.2 “factorial(3) 的 调用 过 程 ” 
在 整个 递归 调用 过 程 中 ， 虽 然 分 配 和 释放 了 很 多 变量 ， 但 是 所 有 的 变 量 都 中 在 初始 化 时 赋值 | 
没有 任何 变量 的 值 发 生 过 改变 ， 而 上 面 的 循环 程序 则 是 通过 对 na 和 =esuat 这 两 个 变量 多 次 赋值 来 
达到 同样 目的 的 。 前 一 种 思路 称 为 函数 式 编程 (Functional Programming) ， 而 后 一 种 思路 称 
为 命令 式 编程 (Imperative Programming ， 这 个 区 别 类 似 于 第 E "S 和 编程 语言 ， 
的 Declarative 和 Imperative 的 区 别 。 阴 数 式 编程 的 “函数 ”类似 于 数学 函 数 的 概念 ， 回顾 一 
下 第 1 A “数学 函数 "所 讲 的 ， 数 学 函数 是 没有 Side Effect 的 ， 而 C 语 言 的 "bs 可 以 有 Side 
Effect， 比如 在 一 个 函数 中 修改 某 个 全 局 变量 的 值 就 是 一 种 Side Effect. ib 变量 
量 " 指 出 ， 全 局 变量 被 多 次 赋值 会 给 调试 带 来 麻烦 ， 如 果 D NIKI, EMREN 
杂 ， 那么 局 部 变量 被 多 次 赋值 也 会 有 同样 的 问题 。 此 外 ， 以 后 我 们 会 讲 到 ， 对 全 所 变量 多 次 赋 
值 会 影响 代码 的 线程 安全 性 。 因 此 ， 不 要 以 为 “变量 可 以 多 次 赋值 "是 天 经 地 义 的 ， 很 多 编程 语言 
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都 在 避免 Imperative 的 方式 ， 例 如 Erlang 语 言 规 定 变 量 的 值 不 允许 改变 。 用 C 语 言 编程 主要 还 是 
采用 Imperative 的 方式 ， 但 是 要 记 住 ， 为 变量 多 次 赋值 时 要 格外 小 心 ， 在 代码 中 多 次 读 写 同一 变 
量 应 该 以 一 种 一 致 的 方式 进行 ， 至 于 什么 才 算 是 “一 致 的 方式 "很 难 定义 ， 也 有 个 人 风格 的 因素 ， 
需要 读者 在 编程 中 自己 体会 。 


正如 递归 函数 如 果 写 得 不 小 心 就 会 变 成 无 穷 递 归 一 样 ， 循 环 如 果 写 得 不 小 心 就 会 变 成 无 限 循环 
(Infinite Loop) 或 者 叫 死 循环 。 如 果 wni1le 语 句 的 控制 表达 式 永 远 为 真 就 是 一 个 死 循环 ， 例 
如 while (1) {.. o 在 写 备 环 时 要 小 心 检 查 你 号 肌 控制 表达 式 有 没有 可 能 到 值 为 候 ， 除 非 你 故意 
写 死 循 环 (有 的 时 候 这 是 必要 的 ) 。 fE LEN £1 不 管 n 一 开始 是 儿 ， 每 次 循环 都 会 把 n 减 
掉 1，n 越 来 越 小 最 后 必然 等 于 0， 所 以 控制 表达 式 最 语 必然 取 值 为 假 ， 但 知 果 把 a。- n 1; 那 句 
漏 按 就 成 死 循环 了 。 有 的 时 候 是 不 是 死 循 环 并 不 那 2 一 目 了 然 : 














































































































































































































































































































































































































如 果 n 为 正 整 数 ， 这 个 循环 外 EIKEAN? 循环 体 所 做 的 事情 是 : 如 果 n 是 偶数 ， 就 把 n 除 以 2， 如 
果 n 是 奇数 ， 就 把 n 乘 3 加 1。 一 般 的 循环 变量 要 么 递增 要 么 递 碱 ， 可 是 这 个 例子 中 的 n 一 会 儿 变 大 
一 会 儿 变 小 ， 最 终 会 不 会 变 成 1 呢 ? 可 以 找 个 us DNI AUN eu ae 
次 是 : 7. 22. 11. 34. 17. 52. 26. 13. 40. 20. 10. 5. 16. 8. 4. 2. 。 最 后 n 确 实 等 
于 1 了 。 读 者 可 以 再 试 几 个 数 都 是 如 此 ， 但 无 论 试 多 少 个 数 也 不 能 代替 证 明 ， 这 个 循环 有 没有 可 
能 对 某 些 正 整数 n 是 死 循环 呢 ” 其 实 这 个 例子 只 是 给 读者 提 提 兴趣 ， 同时 提 超 读者 写 循环 时 要 有 
意识 地 检查 控制 表达 式 。 至 于 这 个 循环 有 没有 可 能 是 死 循环 ， 这 是 著名 的 3x+1 间 题 ， 目 前 世界 
上 还 无 人 能 证 明 。 许 多 世界 难题 都 是 这 样 的 : 描述 无 比 简单 ， 连 小 学 生 都 能 看 懂 ， 但 证 明 却 无 
比 困难 。 


习题 






















































































































































































































































































































































































































































































1、 用 循环 来 解决 第 3 T “递归 ?的 练习 题 ， 体 会 递归 和 循环 这 两 种 不 同 的 思路 。 
2、 编 写 程序 字数 一 下 1 到 100 的 所 有 整数 中 出 现 多 少 次 数字 9。 在 写 程序 之 前 先 把 这 些 问 题 考虑 清 
^E: 
1. 这 个 问题 中 的 循环 变量 是 什么 ? 
2. 这 个 问题 中 的 累加 器 是 什么 ?用 加 法 还 是 用 乘法 累积 ? 
3. 取 一 个 整数 的 个 位 和 十 位 在 第 2 节 “if/else 语 句 * 的 练习 中 已 经 练 过 了 ， 这 两 个 表达 式 应 该 
怎样 用 在 程序 中 ? 
上 二 网 上 上 三 级 下 二 页 


第 6 章 JAIME A 起 始 页 2. do/while 语 铝 


2. do/while 语 向 
SISTI 第 6 & 循环 语句 TEn 


2. do/while 语 句 


do/while 语 句 的 格式 是 : 




















i while (控制 表达 式 ) ; 
































它 和 while 类 似 ， 其 中 的 语句 可 以 是 一 个 语句 块 ， 构 成 循环 体 。 只 不 过 while 是 先 测 试 控制 表达 
式 的 值 再 执行 循环 体 ， 而 gaoy/wniie 是 先 执 行 循 环 体 再 测试 控制 表达 式 的 值 。 如 有 果 控 制 表 达 ET 
值 一 开始 就 是 假 ，while 的 循环 体 一 次 都 不 执行 ， 而 ao/wnile 的 循环 体 至 少 会 执行 一 次 。 其 实 只 
要 有 while 这 一 种 循环 就 足够 了 ， ao/while 循 环 和 后 面 要 讲 的 for 循 环 都 可 以 改写 成 while 循 环 ， 
只 不 过 有 些 情 况 下 用 aoywnhile 或 for 循 环 写 ce 来 更 人 简便， 代码 更 易 读 。 上 面 的 factorial 也 可 以 改 
用 aoyvwhile 来 写 : 
























































































































































































































































































































































i aint ACEO MULE IL (alge d) 

B 

dione dee = ilp 

aime, 3L e dig 

dom 
result = result * i; 
i = i + 1; 

} while (i <= n); 


return result; 


























注意 ao/while 这 种 形式 在 whnile (控制 表达 式 ) 后 面 一 定 要 加 ;号 ， 否 则 编译 器 无 法 判断 这 是 一 
个 aoywhile 循 环 的 结尾 还 是 另 一 个 while 循 环 的 开头 。 写 循环 时 一 定 要 注意 循环 即将 结束 时 控制 















































































































































































































































表达 式 的 临界 条 件 是 否 准 确 ， 上 面 的 循环 结束 条 件 写成 i<n 就 错 了 ， 当 i-==n 时 跳出 循环 ， 最 
后 的 结果 中 就 少 乘 了 一 个 a。 虽 然 变量 名 应 该 尽 可 能 起 得 有 意义 一 些 ， 不 过 用 i、j、k 给 循环 变量 
起 名 是 很 常见 的 。 

习题 


















































1、 在 上 面 的 例子 中 ， 如 果 循 环 结束 条 件 就 要 写成 i<n ， 还 要 结果 正确 ， 那 么 前 面 应 该 怎么 改 ? 









































ices E K A 
1. while 语 铝 起 始 页 3. for 语 句 


ESI: 


3. for 语 铝 


以 上 我 们 在 while 或 aoywhile 循 环 中 





第 6 章 循环 语句 









































3. for 语 句 
























































































































































































































































形式 。for 语 句 的 格式 为 : 

for (控制 表达 式 1 ;控制 表达 式 2; 控制 表达 式 3) 

语句 

如 果 不 考虑 语句 中 J continue tA HIT AL ( 稍 后 介绍 continue 语 句 ) , 这 个 for 循 环 等 价 于 下 
列 的 while 循 环 : 

: 控制 表达 式 1; 

; while (控制 表达 式 2) { 

i TEE 

| 榨 制 表达 式 3; 

:] 
从 这 a 宗 制 表达 式 1 和 3 都 可 以 为 空 ， 但 控制 表达 式 2 是 必 不 可 少 的 ， 例 
如 ，for(;1;){...} 等 价 于 while (1){...} 死 循环 。C 语 言 规 定 ， 如 果 控 制 表达 式 2 为 空 ， 则 当 作 
控制 表达 大 式 2 的 信 为 真 ， 因此 ， 死 循环 也 可 以 写成 for(;;){...}。 
上 一 节 aoywhile 循 环 的 例子 可 以 改写 成 for 循 环 : 

al 

Pd 

| int result - 1; 

i sme, aig 

for(i = 1; i <= n; ++i) 

1 resalti = reseibile = a8 

return result; 

n 
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类 似 地 ， 








yh, XR 
++ 和 


十 十 


这 个 表达 式 相当 于 


LIA 








ds 











-- 称 为 前 级 目 减 i 




















采 把 ++i 这 个 表达 式 看 作 一 个 函数 调 月 


产生 一 个 Side Effect, 





Fa 





1，++ 称 为 前 绥 
运算 符 (Prefix Decrement Operator) ， 


oz 


增 运算 符 
































(Prefix Increment Operator) ， 
i 相当 于 i 1[10]。 如 






































lar 


就 是 


H, 除 ] 传 入 一 个 参数 返回 


变量 ;i 


























Me (等 于 参 交 























的 值 





















































运算 名 





ER 
E 

















守 也 可 以 用 在 变量 后 面 ， 
F (Postfix Increment Operator) TUR E 





例如 i++ 和 i--， 


增加 了 1。 


为 了 和 前 级 运算 符 区 别 ， 称 为 后 级 
减 运 算 符 Decrement Operator) 。 


TO. 











增 运 


如 ; 
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i 返 回 减 1 之 后 的 值 


把 变量 


把 t+ 这 个 表达 式 看 作 一 个 天 数 调 























"aUe 


] zm Ea 








Rf 





“Side Effect, 
, Hi 























€ Hd 














i 的 值 减 了 1。 





























使 用 ++、 















































-- 和 其 它 表 达 式 的 组 




















用 ++、 
采用 那 
分 开始 


























-- 运 算 符 会 使 程序 更 力 











用 ， 除 了 传 入 一 个 参数 返回 
增加 了 1 
返回 减 1 之 前 的 值 





ik, (Ht 


RIBJE 























个 值 (就 等 于 参数 值 ) 之 外 ， 
5 它 和 ++i 的 区 别 就 在 于 返 回 值 不 同 。 同 理 ，- 
文 两 个 表达 式 都 产生 同样 的 Side Effect， 就 是 







































































但 这 





























的 例子 大 量 运 
本 书 第 一 部 分 暂 不 


响 程 序 的 易 读 性 ，[K&R] 
Ho 为 了 让 初学 者 循序 渐进 ， 





ALL fhe 


Py Tal Te 












































Af he Ae 











日 成 一 个 表达 





种 风格 ，++、-- 运 算 


逐渐 采用 更 简洁 的 




































































大 式 而 不 跟 其 它 表达 式 组 合 ， 从 本 书 第 二 部 























AUR XU o 

















C99 引 入 一 种 新 的 tor 循环 ， 规 定 控 制 表 达 
































以 只 在 for 循 环 中 定义 : 


i ane factorial (int n) 


式 1 的 位 置 可 以 有 变量 定义 。 例 如 上 例 的 循环 变量 i 可 

















El 

int result = 1; 

i foz (ioe 3 = ip i « ime did) 
result = result * i; 
return result; 

:] 





























UE SES: 定义 ， 那么 变 量 j 只 是 for 循 环 














生 语 句 ” 讲 过 的 语句 块 中 的 局 部 变量 ， 因 此 在 循环 结束 后 不 能 再 使 用 这 个 变量 了 。 



















































































! 的 局 部 变量 而 不 是 整个 函数 的 局 部 变量 ， 相 当 于 第 1 dE 
这 个 程序 
这 种 写法 很 常见 ， 但 是 在 C 语 言 中 ， 考 虑 到 兼容 性 ， 
































用 gcc 编 译 要 加 上 选项 -sta=c99。 在 C++ 中 
不 建议 使 用 这 种 写法 。 















































[10] increment 和 decrement 这 两 个 词 很 有 意思 ， 





























用 ， 在 计算 机 术语 









































语 中 很 多 名 词 都 被 当成 动词 用 ， 字 典 都 跟 








上 一 页 
2. do/while 语 句 




















大 多 数字 典 都 说 它们 是 名 词 ， 但 经 常 被 当成 动词 

















， 它 们 当 动 词 用 时 应 该 理解 为 increase by one 和 decrease by one。 现 代 英 
不 上 时 代 了 ， 再 比如 transition 也 是 如 此 。 











EZ Fit 
起 始 页 4. break 和 continue 语 向 























4. breakflicontinuei& 4] 

























































































































































































上 一 页 第 6 章 循环 语句 EA 
4. break 和 continue 语 向 

在 第 4 方 “switch 语 句 ” 中 我 们 见 到 了 preaxk 语 句 的 一 种 用 法 ， 用 来 跳出 switen 语 句 块 ， 这 个 语句 
也 可 以 用 来 跳出 循环 体 。 continue 语 句 也 用 来 终止 当前 循环 ， 和 break 语 句 不 同 的 
是 ，continue 语 句 终止 当前 循环 后 义 回 到 循环 体 的 开头 准备 再 次 执行 循环 体 。 对 
于 while 和 ao/while，continue 之 后 测试 控制 表达 式 ， 如 果 值 为 真 则 继续 执行 下 一 次 循环 ) 对 
于 for 循 环 ，continue 之 后 首先 计算 控制 表达 式 3， 然 后 测试 控制 表达 式 2， " 果 值 为 真 则 继续 执 
行 下 一 次 循环 。 例 如 下 面 的 代码 打印 1 到 100 之 间 的 素数 : 





例 6.1. 求 1-100 的 素数 


: #include <stdio.h> 


ELTE is prime(int n) 


q 


aE, p 
Eor (Gl = Zg ah «€ img E) 
j 0) 


一 一 n) 
iex JLE 


return 0; 


Delon: main(void) 


q 


aioe, Le 
for (a, = dig at <= 1000 35») 
if (!is prime(i)) 
continue; 
joreatione ie (UU sol. Ae 


} 


return 0; 


{ 



































































































































































































































































































































































































































is_prime 困 数 从 2 到 n-1 依 次 检查 有 没有 能 被 n 整 除 的 数 ， 如 果 有 就 说 明 n 不 是 素数 ， 立 刻 跳 出 循 
pee ia Eun 如 果 n 不 是 素数 ， 则 循环 结束 后 i 一 定 小 于 n， 如 果 n 是 素数 ， 则 循环 结束 
后 一定 等 于 n。 意 检查 临界 条 件 : 2 应 该 是 素数 ， 如 果 n 是 2， 则 循环 体 一 次 也 不 执行 ， 但 是 i 的 
初 值 就 是 2 , MR 在 程序 中 也 判定 为 素数 。 其 实 没 有 必要 从 2 一 直 检查 到 n-1， 只 需要 从 2 检 
查 到 sqrt(n) ， 全 都 不 能 整除 就 足以 证 明 n 是 素数 了 ， 请 读者 想 一 想 为 什么 。 
在 主 程序 中 ， 从 1 到 100 依 次 检查 每 个 数 是 不 是 素数 ， 如 果 不 是 素数 ， 并 不 直接 跳出 循环 ， 而 
AE UR AES SHUT F— 次 循环 ， 因 此 用 continue 语 向 。 注 意 主 程序 的 局 部 变量 ji 和 is_prime 中 的 局 
部 变量 ij 是 不 同 的 两 个 变量 ， 其 实在 调用 is_prime 函 数 时 ， 主 程序 中 的 局 部 变量 ji 的 值 和 参数 n 的 
值 相 等 。 
习题 
、 求 素数 这 个 程序 只 是 为 了 说 明 break 和 continue 的 用 法 才 这 么 写 的 ， 其 实 完全 可 以 不 

















用 break 和 continue ， 请 读者 修改 一 下 循环 的 结构 ， 去 掉 break 和 continue 而 保持 功能 不 变 。 


2、 在 上 一 节 中 讲 过 怎样 把 tor 语句 写成 等 价 的 wnile 语 句 ， 但 也 提 到 如 果 循 环 体 中 有 continue 语 
句 ， 这 两 种 形式 就 不 等 价 了 ， 想 一 想 为 什么 不 等 价 了 ? 





5. REV 


上 三 页 第 6 章 循环 语句 下 页 


5. EIA 


上 上 =m 





















































求 素数 的 例子 在 循环 中 调用 一 个 函数 ， 而 那个 函数 又 是 一 个 循环 ， 这 其 实 是 一 种 骸 套 循 






























































环 。 如 果 不 是 调用 遂 数 而 是 写 在 一 起 就 更 清楚 了 : 


现在 内 









































例 6.2. 用 磐 套 循环 求 1-100 的 素数 











i #include <stdio.h> 


me main (void) 


Ed 

ine àp Jẹ 

: oie (GL = ip a <= dH PE ap) 4 
for (j = 2; j < i; j++) 
: if (i$ j -- O0) 
break; 

i ae (0 == a) 

porine (exea. 3) § 
! } 

return 0; 

Pg 

































































VERA TAS ERA, TEC], REF Pis prime KC] Zn SUE ELE 














HIRE. TE REMIK F , break 只 能 跳出 最 内 层 的 循环 或 switch 语 名 , continue 也 只 能 


























终止 最 





内 层 循环 并 回 到 该 循环 的 开头 。 


























除了 打 


内 循环 会 



































Ss 


印 一 列 数据 之 外 ， 用 循环 还 可 以 打印 表格 式 的 数据 ， 比 如 打印 小 九 九 乘法 表 : 




















例 6.3. 打印 小 九 九 


: #include <stdio.h> 


i int main (void) 


Pd 

Shane ip J 

: for (aep i<=97 it) ( 

: for (je1; j<=9; j++) 

: prion E 
: joyeatjoue se (UNa) 9 

return 0; 

A 











每 次 打印 一 个 数 ， 数 与 数 之 间 用 两 个 空格 隔 开 ， 外 循环 每 次 打印 一 行 。 结 果 如 下 : 



































3 4 5 6 TY 9 39 

6 G8 10 12 i14 16 18 

9 12 15 19 241 24 27 
12 16 20 24 28 32 36 


10 25 20 25 30 35 40 45 
12 i 24 30 36 42 ae al 
355 42 49 56G OS) 
lo 24 32 40 49 5e GU T2 
18 27 36 45 $54 63 V2 Bil 


5 
6 
7 da 212 2898 
8 
9 




















有 一 位 数 的 有 两 位 数 的 ， 这 个 表格 很 不 整齐 ， 如 果 把 打印 语句 改 为 printe haven, inp; BURGI 
了 ， 所 以 才 需 要 有 Tab (HRE) 这 么 个 字符 。 


习题 


1、 上 面 打印 的 小 九 九 有 一 半数 据 是 重复 的 ， 因 为 8*9 和 9*8 的 结果 一 样 。 请 修改 程序 打印 这 样 的 
小 九 九 : 

























































































Pd 

2 4 

3 6 9 

1 4 8 12 16 

LS 10 LS 20 25 

: 6 12 18 24 30 36 

Ln 14 21 28 35 42 49 

: 8 16 24 22 40 48 56 64 

i 9 18 27 36 45 54 63 72 81 

















2. 2] 53 PI Lai amonad ] HI — T Z8JE T ARS A aiamona (3, Vet) g 则 打印 : 















































如 采用 偶数 做 参数 则 打印 错误 信息 。 























EA LX 下 三 网 
4. break 和 continue 语 句 起 始 页 6. goto 语 向 


6. goto fy 
E= 第 6 JAMBA JESA 


6. goto 语 句 
分 支 、 循 环 都 讲 完了 ， 现 在 只 剩 下 最 后 一 种 影响 控制 流程 的 语句 了 ， 就 是 goto 语 句 ， 实 现 无 条 


件 跳 转 。 我 们 知道 break 只 能 跳出 最 内 层 的 循环 ， 如 果 在 一 个 骨 套 循环 中 遇 到 某 个 错误 条 件 需要 
立即 跳 到 循环 之 外 的 某 个 地 方 做 出 错 处 理 ， 就 可 以 用 goto 语 句 ， 例 如 : 























































































































































































































if (出 现 错误 条 件 ) 

















出 错 处 理 ， 





























里 的 error: 岂 做 标号 (Label) ,给 标号 起 名 字 也 遵循 标识 符 的 命名 规则 。 事 实 上 我 们 
"EZB 4 di "switchi& H] "学 过 的 case 和 aefault 后 面 也 是 跟 ^B 5 ; 在 语法 结构 也 起 标号 的 作 
用 。 


goto 语 句 过 于 强大 了 ， 从 程序 中 的 任何 地 方 都 可 以 无 条 件 跳 转 到 任何 其 它 地 方 ， 只 要 给 那个 地 
方 起 个 标号 就 行 ， 唯 一 的 限制 是 goto 只 能 跳 到 同一 个 函数 的 某 个 标号 处 ， 而 不 能 跳 到 别 的 函数 
里 。 所 以 ， 滥用 goto 语 句 会 使 程序 的 控制 流程 非常 复杂 ， 可 读 性 很 差 。 著 名 的 计算 机 科 驻 

家 Edsger W. Dijkstra 最 早 指 出 编程 语言 igoto 语 句 的 危害 ， 提倡 取消 goto 语 句 。 goto 语 句 不 是 
必须 存在 的 ， 显 然 可 以 用 别 的 办 法 替代 ， 比 如 上 面 的 代码 段 可 以 改写 为 ; 
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iue (tome) d 

















if (出 现 错误 条 件 ) ( 


cond = 1; 
break; 
} 
} 
if (cond) 
break; 
if (cond) 
出 错 处 理 ; 
































通常 goto 语 名 只 用 于 在 函数 末尾 做 出 错 处 理 〈 例 如 释放 先前 分 配 的 资源 、 恢 复 先 前 改动 过 的 全 
局 变量 等 ) ， 函 数 中 任何 地 方 出 现 了 错误 条 件 都 可 以 立即 跳 到 函数 末尾 ， 人 处 理 完 之 后 函数 返 
回 。 比 较 上 面 两 种 写法 ， 用 goto 语 名 还 是 方便 很 多 。 但 是 除了 这 个 用 途 之 外 ， 在 任何 场合 都 不 
要 轻易 考虑 使 用 soto 语 人 向。 
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5. RETA 起 始 页 第 7 章 结构 体 
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到 目前 为 止 我 们 使 用 的 大 多 数 数据 类 型 都 具有 
这 些 可 称 为 基本 数据 类 型 (Primitive Type) 
































种 由 基本 类 型 
合 规则 一 样 ， 由 基本 类 ; 




















单一 的 值 ， 例 如 整数 、 字 符 、 布 尔 值 、 浮 点 数 ， 
。 但 字符 串 是 一 个 例外 ， 它 由 很 多 字符 组 成 ， 像 这 




































































成 的 数据 类 型 称 为 复合 数据 类 型 (Compound Type) ， 正 如 表达 式 和 语句 有 组 
型 组 成 复合 类 型 也 有 一 些 组 合 规则 ， 例 如 本 章 要 讲 的 结构 体 ， 以 


及 第 8 章 数组 要 讲 的 数组 和 字符 串 。 复 合 数据 类 型 一 方面 可 以 从 整体 上 当 作 一 个 数据 使 用 ， 男 


一 方面 也 可 以 分 别 访问 它 的 各 组 成 单元 ， 复合 数据 类 型 的 这 种 两 面 性 提供 了 一 种 数据 抽象 
(Data Abstraction) 的 方法 。[SICP] 指 出 ， 在 学 习 一 门 编程 语言 时 ， 要 特别 注意 以 下 三 方面 : 


如 基本 数据 类 型 ， 比 如 基本 的 运算 符 、 表 达 式 和 语句 。 





1. 这 门 语言 提供 了 哪些 Primitive E 








































































































2. 这 门 语言 提供 了 哪些 组 合 规 则 ， 比 如 复合 数据 类 型 ， 比 如 表达 式 和 语句 的 组 合 规则 。 


3. 这 门 语言 提供 了 哪些 抽象 机 制 ， 例 如 数据 抽象 和 过 程 抽象 (Procedure Abstraction) 。 
本 节 将 以 结构 体 为 例 来 讲解 数据 类 型 的 组 合 和 抽象 。 A 



















































































式 ， 就 是 把 
过 程 抽象 。 








现在 我 们 用 C 语 言 表 示 一 个 复数 。 如 果 从 直角 
m i 


标 系 来 看 ， 





组 语句 用 一 个 函数 名 封装 起 来 ， 当 作 一 个 整体 使 用 ， 以 后 我 们 还 会 介绍 更 复杂 的 








于 过 程 抽象 我 们 已 经 见 过 最 简单 的 形 
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数 由 模 和 辐 角 组 成 ， 两 种 座 标 系 














图 7.1. 复数 


Imaginary 








可 以 相互 转换 。 如 下 图 所 示 


tA 
a a d di re 











比如 用 实 部 和 虚 部 表示 


Real 





个 复数 ， 我 们 可 以 采用 两 个 double 型 组 成 的 结构 体 : 








Lin RRA, SSCS REAL, 34 








; struct complex struct { 


ar 


double x, y; 





XXFÉAE X. f complex structIt MIMS, BRIS, ABA EB Ae LU 



































“和 变量 一 样 ， 但 








从 极 座 








mr 


5 


不 表示 一 个 变量 ， 而 表示 一 个 类 型 ， 这 种 标识 符 在 C 语 言 中 称 为 Tag struct complex struct { 


double x, 


Yr 


} 整 个 可 以 看 作 一 个 类 型 名 ， 就 











像 int 或 aouble 一 样 ， 只 不 过 它 是 


— tS 人 > 
个 复合 类 








Ed, 


CER, 























可 以 这 村 








类 型 名 来 定义 变 








; struct complex struct { 


double x, y; 















































































































































i mds FE 
这 样 z1 和 z2 就 是 两 个 变量 名 ， 变 量 定 义 后 面 带 个 ;号 是 我 们 早 就 习惯 的 。 但 即使 像 上 面 那样 只 定 
义 了 complex_ struct 这 个 Tag 而 不 定义 变量 ， 后 面 的 ;号 也 不 能 少 。 这 点 定 要 注意 ， 结构 体 定 
义 后 面 少 ;号 是 初学 者 很 常 犯 的 错误 。 不 管 是 用 上 面 两 种 形式 的 哪 一 种 形式 定义 
complex_ struct Tag, 以 后 部 可 以 直接 用 struet complex_struct 来 代替 类 型 名 了 。 例如 
可 以 这 样 定义 另外 两 个 复数 变量 











































































































































































































































































































如 果 在 定义 结构 体 类 型 的 同时 定义 了 变量 ， 也 可 以 不 必 写 Tag TIU: 
"o MM uM 
double x, y; 
[y ml FE 
但 这 样 就 没有 办 法 再 次 引用 这 个 结构 体 类 型 了 ， 因 为 它 没 丰 1% Fo ESE BAVA AT ak UA 
(Member) x 和 y， 可 以 用 .运算 符 CS, Period) 来 访问 ， 这 两 个 成 员 的 存储 空间 是 相 邻 
的 HI]， 合 在 一 起 组 成 复数 变量 的 存储 空间 。 看 下 面 的 例子 : 
4f] 7.1. 定义 和 访问 结构 体 
i#incluge <stdio.h> ^00 
| int main(void) 
d 
struct complex struct { double x, y; } zj 
double x = 3.0; 
| > a 2 
: ase (moy < 0) 
| [es (7 Nn 
: else 
: Eli 人 (WE 二 TNTY Aopo Aow p 
| return 0; 
ie 
注意 上 例 中 变量 x 和 变量 z 的 成 员 x 的 名 字 并 不 冲突 ， 因 为 变量 z 的 成 员 x 总 是 用 .运算 符 来 访问 的 ， 
编译 右 可 以 区 分 开 哪 个 x 是 变量 x， 哪个 是 变量 2 的 成 员 x EU T ARTES 命名 空间 (Name 
Space) 。 Tag 也 可 以 定义 在 函数 外 面 ， 就 像 全 局 变量 一 样 ， 这 样 定 义 的 Tag 在 其 定义 之 后 的 各 
函数 中 都 可 以 使 用 。 例 如 : 
于 
| int main(void) 
E 
: struct complex_struct z; 
结构 体 变 量 也 可 以 在 定义 时 初始 化 ， 例 如 : 
































Initializer 中 的 数据 依次 赋 给 结构 体 的 成 员 。 如 果 Initializer 中 的 数据 比 结构 体 的 成 员 多 ， 编 译 器 
会 报错 ， 但 如 果 只 是 末尾 多 个 去 号 不 算 错 。 如 果 |nitializer 中 的 数据 比 结构 体 的 成 员 少 ， 未 指定 
的 成 员 将 用 0 来 初始 化 ， 就 像 未 初始 化 的 全 局 变量 一 样 。 例 如 以 下 几 种 形式 的 初始 化 都 是 合 ; 
的 : 






























































































































































‘double x = 3.0; 


: struct complex struct zl f sx 40, he Je mios. al yA “/ 


etaver Complex struct 22 = 1 3-0; ae E D MMC 
eruet scomplexsseruci 23 = 


ü bg #8 23-360.0, m3.-0.9 “/ 


































































































，Z1 必 须 是 函数 的 局 部 变量 才能 用 变量 x 来 初始 化 ， 如 果 是 全 局 变量 就 只 能 用 常量 表达 式 来 
初始 化 。 尽 管 结构 体 的 初始 化 可 以 用 这 文 种 语法 ， 结 构 体 赋值 却 不 行 ， 例 如 这 样 Js 
























































i struct complex struct zl; 
pub c SUE E 















































以 前 使 用 基本 数据 类 型 时 ， 能 用 来 初始 化 的 表达 式 就 能 用 来 赋值 ， 在 这 一 点 上 结构 体 的 语法 规 
则 有 点 不 同 [ 地 ]。 结 构 体 类 型 的 值 用 在 表达 式 中 有 很 多 限制 ， 不 像 基 本 数据 类 型 那么 自由 ， 比 
如 +-”/ 等 算术 运算 符 和 &&、||、! 等 逻辑 运算 符 都 不 能 作用 于 结构 体 类 型 ，if、vwhile 的 控制 表达 
式 的 值 也 不 能 是 结构 体 类 型 。 严 格 来 说 ， 可 以 做 算术 运算 的 类 型 称 为 算术 类 型 (Arithmetic 
Type) ， 算 术 类 型 包括 整 型 和 浮 点 型 。 可 以 做 逻辑 与 、 或 、 非 运算 的 操作 数 或 

者 if、for、while 的 控制 表达 式 的 类 型 称 为 标量 类 型 (Scalar Type) ， 标 量 类 型 包括 算术 类 型 
和 以 后 要 讲 的 指针 类 型 。 


结构 体 类 型 之 间 用 赋值 运算 符 是 允许 的 ， 用 一 个 结构 体 初始 化 男 一 个 结构 体 也 是 允许 的 ， 例 






















































































































































































































































































































































































































































































































































































‘struct complex struct z 
struce complex struct 7 
pal e np 


Ne 





























ER, ze bse BEA e tz R. MIA XE, DAEA A AEK 
数 的 参数 和 返回 值 来 传递 就 在 意料 之 中 了 : 

































































i struct complex struct add complex(struct complex struct zl, struct 
i complex struct z2) 


d 


| alax e ala de WA oXp 
: Vall of = Alloy de 4A NVR 
return z1; 

:] 




















这 个 函数 实现 了 两 个 复数 相 加 ， 如 果 在 main 函 数 中 这 样 调用 : 











struct Compillexustruct z = { 3-0, 4.0! Tp 
iz = add complex(z, z); 











BAHRAINI T EATA : 








图 7.2. 结构 体 传 参 





main 


add_complex 














变量 z 在 main 函 数 的 栈 帧 中 ， 参 数 z1 和 z2 在 aaa_complex 函 数 的 栈 帧 中 ，z 的 值 分 别 赋 给 z1 和 z2。 
在 这 个 函数 里 ，z2 的 实 部 和 虚 部 被 累加 到 z1 中 ， 然 后 return z1;， 可 以 看 成 是 : 


1. 把 z1 找 到 一 个 临时 变量 里 。 
2. 函数 返回 并 释放 栈 帧 。 


3. 把 临时 变量 的 值 拷 给 变量 z-， 释 放 临 时 变量 。 

























































































MI 其 实 C99 已 经 定义 了 复数 类 型 complex。 如 果 包 含 C 标 准 库 的 头 文件 -complex.na， 也 可 以 
用 -complex 做 类 型 名 o 当然 ， 只 要 不 包含 头 文件 complex.h 就 可 以 目 己 定义 complex 这 个 名 字 ， 但 
Zr ya PS , 本 市 的 例子 都 用 complex_struct 这 个 名 字 。 







































































2) 以 后 我 们 会 看 到 ， 结 构 体 成 员 之 间 也 可 能 有 若干 个 填充 字 节 (Padding) 。 








[13] C99 引 入 一 种 新 的 语法 Compound Literal, 这 个 赋值 写成 zl = (struct complex_struct) { 
3.0, 4.0 j; 就 对 了 ， 不 过 不 建议 读者 使 用 C99 的 新 特性 。 
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现在 我 们 来 实现 一 个 完整 的 复数 运算 的 程序 。 在 上 一 市 我 们 已 经 定义 了 复数 的 结构 体 ， 现 在 需 
要 围绕 它 定 义 一 些 函数 。 复 数 可 以 用 直角 座 标 或 极 座 标 表示 ， 直 角 座 标 做 加 减法 比较 方便 ， 极 
座 标 做 乘除 法 比较 方便 。 tn 果 我 们 定义 的 复数 结构 体 是 直角 座 标的 ， 那 么 应 该 提供 极 座 标 的 转 
换 函 数 ， 以 便 在 需要 的 时 候 可 以 万 便 地 取 它 的 模 和 辐 角 : 


i struct complex struct 1 
: double x, y; 
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: double real part (struct complex struct z) 
return 2.x; 
: double img_part (struct complex struct 2) 


四 


TAUIA Bo WP 


i) 

! double magnitude(struct complex struct z) 
X 

: return sqrt(z.x * z.x + z.y * z.y); 
i} 

: double angle(struct complex struct z) 

i { 

double PI = acos(-1.0); 

ai (ass S> (9) 

: mer wien aranz / ><) 6 
else 

: mec Wien aranz w / vagi) sp DIEF 
EI} 






























































HIN, RATER ULM RSAC SEMIS BET DUROI Hle HORA, (i 
数 中 自动 做 相应 的 转换 然后 返回 构造 的 复数 变量 


‘ struct complex_struct make_from_real_img(double x, double y) 






































il 

' struct complex struct z; 
Z.X = X; 
z.y = yi 

return z; 

i } 


‘ struct complex_struct make_from_mag_ang(double r, double A) 


d 

' struct complex struct z; 
Za = 3 C" COs (VA) P 
rho; c 3e 79 San (ZA) p 


return zZ; 






































| Sue complex struct add complex(struct complex struct zl, struct 
i complex struct z2) 

i { 
i return make from real img(real part(zl) + real_part(z2), 
H img part (zl) + img part (z2)); 
* 


| struct complex struct sub complex(struct complex struct zl, struct 
i complex struct z2) 

P 
: return make from real img(real part(zl1) - real part (z2), 
sime] joxewele (wil) = Me isse (22) ) f 
i } 


ETE complex struct mul complex(struct complex struct zl, struct 
: complex_struct 22) 

: { 
: return make from mag ang (magnitude(zl1) * magnitude (z2), 
: angle(z1) + angle (z2)); 
Pj 


| struct complex struct div complex(struct complex struct zl, struct 
: complex struct z2) 


Zz 


return make from mag ang (magnitude(z1) / magnitude (z2), 
angle(z1) - angle(z2)); 









































"TEUER, BABES SEI A ELBEUI RAT fk complex struct 的 成 员 x 和 y， 而 是 把 
TUR REUS, Eel HTHOS POR BLUE BY EAA A AAR CRI n] DASE SÉ 73 TS HERR 
掉 结 构 体 complex_struct 的 存储 表示 ， 例 如 改 为 E 标 来 存储 : 































































































di; 
> 
Sa 
oe 
Liz 














‘ struct complex struct { 
double r, A; 
ea 


: double real_part (struct complex struct z) 
Pd 
: en OS 


`} 


: double img_part (struct complex struct 2) 
i { 
: ieeRETbuelgy 4 76 =e alin AIN E 


i} 
! double magnitude (struct complex struct z) 


return z.r; 


| double angle(struct complex struct z) 


return Zz.A; 


save complex_struct make_from_real_img(double x, double y) 


struct complex struct z; 
double PI = acos(-1.0); 
zzie = Sep (Ok * IN a Ww SE 
aie du £9 09 
z.A = atan(y / x); 
else 
z.A = atan(y / x) + PI; 


return zZ; 


i 


struct complex_struct make_from_mag_ang(double r, double A) 


mI 


struct complex struct z; 
ZU ie" 
Z.A = A; 
return zZ; 











虽然 结 


动 , add complex» 


Tf comp lex struct 的 存储 表示 做 了 这 样 的 改 





sub complex^ mul complex^ 



































任何 改动 ， 仍 可 以 使 用 ， 原 因 在 于 这 几 个 函数 只 把 结 
而 没有 直接 访问 它 的 成 员 ， 因 此 也 不 依赖 于 它 有 图 








图 7.3. 数据 抽象 


其 它 使 用 复数 运算 角 程 序 


TT PDR fort l 














add complex sub complex | mul complex 


RAZE ER soe men] 


real part 
SVB Ee tret Re the 


img part magnitude angle 
































这 里 要 介绍 的 编程 思想 称 为 抽象 。 其 实 “ 和 





div_complex 


























div - complexiXJL 2? 数 运 算 的 函数 却 不 需要 做 
构 体 complex_ struct 当 作 一 个 整体 来 使 
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H, 
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bh 此 成 员 。 我 们 结 
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AF LRSM 





复 独 运算 层 


Shae TE 
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象 ” 这 个 相 





























念 并 没有 那么 和 























因 式 ”: 











ab+ac=a(b+c) 。 
一 个 因子 。 






































如 果 a 变 了 ，ab 和 ac 这 但 如 果 








位 





要 改 其 
lA 


在 我 们 的 复数 运算 程序 中 ， 复 数 有 可 能 用 
素 提 取出 来 组 成 复数 存储 表示 
E: real part^ img part^ magnitude^ angle» 


层 看 到 的 是 数据 是 结构 体 的 两 个 成 员 x 和 y， 或 
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E 标 或 极 



























































座 标 表示 ， 





make_from real_img、 


者 r 和 A， pig 








改变 J 





A, AE ERA 
写成 a(b+c) 的 形式 就 只 外 
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25 
能 变 





文 个 有 可 能 变动 的 


IE 


我 们 把 这 

















make_from_mag_ango 这 
^ zi 


结构 体 的 实现 就 要 改变 这 















































PASAY SCHL, (ELPA Be ANAS, AlCl FI 
复数 运算 层 看 到 的 数据 只 是 一 个 抽象 的 "复数 "的 概念 ， 



































Fe PRE 
知道 它 有 


口 的 复 














数 运算 灵 也 ,不 需要 改变 。 
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座 标 和 极 座 标 ， 可 以 调用 复 




















位 

















AE 
数 存 储 表示 层 的 函数 得 到 这 些 


为 抽象 的 “复数 "的 概念 ， 只 知道 它 
座 标 和 极 


座 标 也 不 需要 知道 。 
这 里 的 复数 存储 表示 层 和 复数 运算 层 称 为 抽象 层 

















Fi 
AE 


一 个 数 ， 像 整数 、 
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座 标 。 再 往 上 看 ， 其 它 使 用 
小 数 一 相 
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复数 运 
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= (Abstraction Layer) , 





H 





FA, “复数 "这 种 数据 越 来 越 抽象 了 ， 把 所 有 这 些 必 组 


HG TE 


起 就 












































象 ] 
统 可 以 任意 复杂 ， 而 抽象 使 得 系统 的 复杂 是 可 以 和 
会 波及 整个 系统 。 著 名 的 计算 


zt 


























science can be solved by another level of indirection.” iX 4 


CY. 


FH 
Ac SS o 


习题 


、 在 本 市 ace QN 印 复数 的 函数 ， 打 印 的 格 
i 例如 : 、-2.0i、-1.0+2.0i、1.0-2.0i。 最 后 编写 一 
想 RE ERU EUR E AERIS 


云 ? 
母 的 格式 来 表示 有 理 数 的 






































2、 
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zl 的 ， 
机 科学 家 Butler Lampson 说 过 : 
的 indirection 其 实 就 是 abstraction 的 


AE 





“All 

















式 是 x+yi， 





Fr 


任何 改动 都 只 局 限 在 茶 


























EJ 甚至 连 它 有 直角 

















FE Sa 
AE BR , 














从 底层 往 上 层 来 
一 个 完整 的 系统 。 组 合 使 得 系 
而 不 
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problems in computer 























如 果实 部 或 虚 部 为 0 则 省 








个 main 消 数 测试 本 市 的 所 有 代码 。 想 一 


结构 体 Rational 及 相关 的 函 





数 ，Rational 之 间 可 









































以 做 加 减 乘除 运 算 的 结果 仍然 是 Rational。 测 试 代码 如 下 : 
"o s EMT 


T 





SR 
B 
i 





struct Rational a make rational(1, 8); /* a-1/8 */ 
struct Rational b make rational(-1, 8); /* b=-1/8 */ 
print rational (add rational(a, b)); 

print rational(sub rational(a, b)); 
print rational(mul rational(a, b)); 
print rational(div rational(a, b)); 


return 0; 
































注意 要 约 分 为 最 简 分 数 ， 例 如 1/8 和 -1/8 相 减 的 打印 结果 应 该 是 1/4 而 不 是 2/8， 可 以 利用 第 3 证 
“递归 ”练习 题 中 的 Euclid 算 法 来 约 分 。 在 动手 编程 之 前 先 思 考 一 下 这 个 问题 实现 了 什么 样 的 数据 
抽象 ， 抽 象 层 应 该 由 哪些 函数 组 成 。 
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3. 数据 类 型 标志 


在 上 一 我 们 通过 一 个 复数 存储 表示 抽象 层 把 complex_struct 结 构 体 的 存储 格式 和 上 层 的 复 
a HUBIE, complex sec 结构 体 既 可 以 采用 由 j 座 标 也 可 以 采用 极 座 标 存 储 。 但 有 时 候 
需要 同时 支持 两 种 存储 格式 ， 比 如 先前 已 经 采集 了 一 些 数据 存在 计算 机 中 ， 有 些 数据 是 以 极 座 
标 存储 的 ， 有 些 数据 是 以 直 座 标 存储 的 ， 如 a :把 这 些 数据 都 存 到 conplex_struet 结 构 体 5 
么 办 ”一 种 办 法 是 -complex_struct 结 构 体 采用 直角 座 标 格 式 ， 直 角 座 标的 数据 可 以 直接 存 
入 complex_ struct 结 构 体 ， T JE BEER IGE IG T make. from mag. ang PR 数 转 成 直 座 标 再 存 ， 但 转 
换 总 是 会 损失 精度 的 。 这 里 介绍 另 一 种 办 法 ，complex_struct 结 构 体 由 一 个 数据 类 型 标志 和 两 个 
浮 点 数组 成 ， 如 果 数 据 类 型 标志 为 0， 那 两 个 浮 点 数 就 表示 直角 座 标 ， 如 果 数 据 类 型 标志 为 1 ， 
mU d Ip T 3 座 标 和 极 座 标的 数据 都 可 以 适 配 

(Adapt) 到 complex_struct 结 构 体 中 ， 无 需 转 换 和 损失 精度 : 









































































































































































































































































































































































































































































































































: enum coordinate_type { RECTANGULAR, POLAR }; 
"structocomplesx struct. 7 

: enum coordinate type t; 

double a, b; 


a 





































































































enum 大 键 字 的 作用 和 struct 关 键 字 类 似 ， 把 coordinate _type 这 ARV 只 符 定 义 为 一 个 Tag ， 只 不 
过 struct complex_st E M 个 结构 体 类 型 , 而 enum coordinate_type d/ — 个 枚 举 
(Enumeration) 类 型 。 枚 举 类 型 的 成 员 是 常量 ， 它们 的 值 编译 器 上 自动 分 配 ， 例 如 定义 了 上 面 的 









































枚 举 类 型 之 后 ， RECTANGULAR 就 表示 常量 0， POLAR 就 表示 常量 1。 如 果 不 希 望 从 0 开始 分 
配 ， 可 以 这 样 定义 : 





























: enum coordinate type { RECTANGULAR = 1, POLAR Jj; 


























这 样 ， RECTANGULAR 就 表示 常量 1， 而 POLAR 就 表示 常量 2， 这 些 常量 的 类 型 就 是 int 。 有 一 
点 需要 注意 ， 结 构 体 的 成 员 名 和 变量 名 不 在 同一 命名 空间 ， 但 枚 举 的 成 员 各 和 变量 名 却 在 同一 
命名 空间 ， 所 以 会 出 现 命 名 冲突 。 例 如 这 样 是 不 合法 的 : 
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: int main (void) 


B 

enum coordinate type { RECTANGULAR = 1, POLAR }; 
int RECTANGULAR; 

printf ("$d $d\n", RECTANGULAR, POLAR); 

| cerusa 07 

: } 

































































complex_struct 结 构 体 的 格式 变 了 ， 就 需要 修改 复数 存储 表示 层 的 函数 ， 但 只 要 保持 函数 接口 不 
变 就 不 会 影响 到 上 层 函 数 。 例 如 : 














i struct complex struct make from real img(double x, double y) 
P 
struct complex struct z; 
z.t = RECTANGULAR; 

Z.a = X}; 

alo = yp 

return zZ; 


: struct complex_struct make_from_mag_ang(double r, double A) 


: { 

struct complex struct z; 
z.t = POLAR; 

: Eo = ep 

| z.b = A; 

: return z; 

:] 





习题 
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2、 编 译 运行 下 面 这 段 程 序 : 


: #include <stdio.h> 
‘enum coordinate type { RECTANGULAR = 1, POLAR Jj; 


' int main (void) 


-— 

: int RECTANGULAR; 

| printf("$d %d\n", RECTANGULAR, POLAR); 
: return 0; 

- 























结果 是 什么 ?并 解释 一 下 为 什么 是 这 样 的 结果 。 
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4. REA 
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4. REA 
; 构 体 也 是 一 种 递归 定义 : 结构 体 由 数据 类 型 定义 ， 因 为 结构 体 的 成 员 具 有 数据 类 型 ， 而 数据 


型 由 结构 体 定义 ， 因 为 结构 体 本 身 也 是 一 种 数据 类 型 。 换 句 话 说， 结构 体 也 可 以 嵌 套 。 例 如 
门 在 复数 的 基础 上 定义 复 乎 面 上 的 线段 : 












































































































































^b Dk 




















i struct Segment { 
: struct complex struct start; 
struct complex struct end; 


BF 








REZ] AREA. BAN: 



































































































| struct segment Ss = {4 1.0, 2.0 tp 42.0, 6.0 be 
























































| S. Start.t = RECTANGULAR; 
i S.Start.a = 1.0; 
S Scio = 2.07 
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1. 数组 的 基本 操作 





第 8 E 数组 


1. 效 组 的 基本 操作 


和 结构 体 类 似 ， 数 组 (Array) 也 是 一 种 复合 数据 类 型 ， 它 由 一 系列 相同 类 型 的 元 素 
(Element) 组 成 。 例 如 定义 一 个 由 4 个 整数 组 成 的 数组 count: 













































































和 结构 体 成 员 类 似 ， 数 组 count 的 4 个 元 素 的 存储 空间 也 是 相 邻 的 。 结 构 体 的 成 员 可 以 是 基本 数 










































































i struct Complex { 
doublen Vv; 
:} a[4]; 











i struct { 
: double x, y; 
aime, (Gombe [LÀ 1) 9 


























































































































JKM ARE DKA is SIAR EDA | IR FETA SE ROBORE 
的 ， 这 一 点 和 case 后 面 跟 的 浓 量 表达 式 的 要 求 相 同 。 数 组 中 的 元 素 通 过 下 标 (或 者 叫 索 
5], Index) 来 访问 。 例 如 前 面 定义 的 由 4 个 整数 组 成 的 数组 count 图 示 如 下 : 
图 8.1. 数组 count 
0 1 2 3 
“PTET 
整个 数组 占 了 4 个 整数 的 存储 单元 ， 存 储 单元 用 小 方 框 表 示 ， 里 面 的 数字 是 存储 在 这 个 单元 中 的 





















































整数 (假设 都 是 0) ， 而 框 外 面 的 数字 是 下 标 ， 这 四 个 单元 分 别 
用 count [0] 5 count[1]^ count[2]^ count [3] 来 访问 。 注意 ， 在 定义 数组 int count [4]; 时 , 方 
括号 (Bracket) 中 的 数字 4 表示 数组 的 长 度 ， 而 在 访问 数组 时 ， 方 括号 中 的 数字 表示 访问 数组 
的 第 几 个 元 素 。 和 我 们 平常 数 数 不 同 ， 数 组 元 素 是 从 “第 0 个 "开始 数 的 ， 大 多 数 编程 语 言 都 是 这 
么 规定 的 ， 所 以 计算 机 术语 中 有 Zeroth 这 个 词 。 这 样 规 定 使 得 访问 数组 元 素 非 党 方便 ， 比 

如 count 数 组 中 的 每 个 元 素 占 4 个 字 节 ， 则 count[] 位 于 从 数组 开头 路 过 4*i 个 字 克 的 存储 位 置 。 这 
种 数组 下 标的 表达 式 不 仅 可 以 表示 存储 位 置 中 的 值 ， 也 可 以 表示 存储 位 置 本 身 ， 也 就 是 说 可 以 
做 左 值 ， 因 此 以 下 语句 都 是 正确 的 : 























































































































































































































: count [0] 
i count [1] 
| ++count [2 


= qd 


7 









































数组 的 下 标 也 可 以 是 表达 式 ， 但 表达 式 的 值 必须 是 整 型 或 字符 型 的 。 例 如 : 























| int i = 10; 
| eura] = coume [aad] 






































使 用 数组 下 标 不 能 超出 数组 的 长 度 范 围 ， 这 一 点 在 使 用 变量 做 数组 下 标 时 尤其 要 注意 。C 编 译 需 
并 不 检查 count [-1] 或 是 count [100] 这 样 的 访问 越界 错误 ， 编 译 时 能 顺利 通过 ， 所 以 属于 运行 时 
错误 H5。 但 有 时 候 这 种 错误 很 隐蔽 ， 发 生 访 问 越界 时 程序 可 能 并 不 会 立即 崩溃 ， 而 执行 到 后 面 
某 个 正确 的 语句 时 却 有 可 能 突然 月 站 〈 在 第 4 蔬 " 段 错误 ?中 我 们 会 看 到 这 样 的 例子 ) 。 所 以 ， 
从 一 开始 写 代码 时 就 要 小 心 避免 出 问题 ， 事 后 依靠 调试 来 解决 问题 的 成 本 是 很 高 的 。 


数组 也 可 以 像 结 构 体 一 样 初始 化 ， 未 赋 初 值 的 元 素 也 是 用 0 来 初始 化 ， 例 如 : 





































































































































































































则 count [0] 等 于 3， count [1] 等 于 2， 后 面 两 个 元 素 等 于 0。 如 果 定 义 数组 的 同时 初始 化 它 ， 也 可 
以 不 指定 数组 的 长 度 ， 例 如 : 






































编译 需 会 根据 Initializer 有 三 个 元 素 确定 数组 的 长 度 为 3。 下 面 举 一 个 完整 的 例子 : 








; #include <stdio.h> 


i aan main (void) 


Bd 

ime coumeldl = 4 3; M 

| icone (GGL = Op a < Ag asi) 

printf ("count [%$d]=%d\n", i, count[i]); 
return 0; 

P 






































这 个 例子 通过 循环 把 数组 中 的 每 个 元 素 依 次 访问 一 遍 ， 在 计算 机 术语 中 称 为 遍历 
(Traversal) 。 注 意 控制 表达 式 1 < 4， 如 果 写 成 1 < 4 就 错 了 ， 因 为 count 04] 是 访问 越界 。 


数组 和 结构 体 虽 然 有 很 多 相似 之 处 ,但 也 有 一 个 显著 的 不 同 : 数组 不 能 互相 赋值 。 例 如 这 样 是 
错误 的 : 














































































































' int a[5], b[5] = { 4, 3, 2, 1 }; 
Pcl = op 
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X: 


i void foo (int a[5]) 
bg 


i) 





然后 这 样 调 用 : 


Lame escicey (SI = 4s 
: foo (array); 




















编译 器 也 不 会 报错 ， 但 这 样 写 并 不 是 传 一 个 数组 类 型 参数 的 意思 。 对 于 数组 类 型 有 一 条 特殊 规 
Wu: 数组 名 做 右 值 使 用 时 ， 自 动 转换 成 指向 数组 首 元 素 的 指针 。 所 以 上 面 的 函数 调用 其 实 是 传 
一 个 指针 类 型 的 参数 ， 而 不 是 数组 类 型 的 参数 。 接 下 来 的 几 章 里 有 的 函数 需要 访问 数组 ， 我 们 
就 把 数组 定义 为 全 局 变量 给 函数 访问 ， 等 以 后 我 们 讲 了 指针 再 使 用 传 参 的 办 法 。 这 也 解释 了 为 
什么 数组 类 型 不 能 互相 赋值 ， 上 面 提 到 的 。= b 这 个 表达 式 ，a 和 pb 都 是 数组 类 型 的 变量 ， 但 
是 b 做 右 值 使 用 ， 自 动 转 换 成 指针 类 型 ， 而 左边 仍 是 数组 类 型 ， 所 以 编译 需 报 的 错误 信息 


是 srror: incompatible types in assignment o 
日 
习题 


1、 编 写 一 个 程序 ， 定 义 两 个 类 型 和 长 度 都 相同 的 数组 ， 将 其 中 一 个 数组 的 所 有 元 素 拷贝 给 男 一 
个 。 既 然 数 组 不 能 直接 赋值 ， 想 想 应 该 怎么 实现 。 












































































































































































































































































































































Hg C99 引 入 了 新 的 特性 ， 规 定数 组 长 度 表 达 式 也 可 以 包含 变量 ， 称 为 变 长 数组 
(VLA, Variable Length Array) ，VLA 只 能 定义 为 函数 的 局 部 变量 ， 而 不 能 定义 为 全 局 变量 ， 
与 VLA 有 关 的 语法 规则 非常 复杂 ， 而 且 很 多 编译 器 不 支持 这 种 新 特性 ， 不 建议 使 用 。 















































[19] 你 可 能 会 想 为 什么 编译 器 对 于 这 么 明显 的 错误 都 视而不见 ?理由 一 ， 这 种 错误 并 不 总 是 显 而 
易 见 的 ， 以 后 会 讲 到 通过 指针 而 不 是 数组 名 来 访问 数组 的 情况 ， 指 针 指 向 数组 出 什么 位 置 只 

运行 时 才 知 道 ， 编 译 时 无 法 检查 是 否 越 界 ， 而 运行 时 检查 数组 访问 越界 会 影响 性 能 ， 所 以 干脆 
不 检查 了 ; 理由 二 ，[C99 Rationale] 指 出 ，C 语 言 的 设计 精神 是 : HAUTE ACRE RAENT, 
不 要 阻止 程序 员 员 去 干 他 们 需 : 二 的 事 ， 高 手 们 使 用 count[-1] 这 种 技巧 其 实 并 不 少见 ， 不 能 当 作 


错误 。 
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2. 数组 应 用 实例 : 统计 随机 数 
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第 8 章 数 组 
2. 数组 应 用 实例 : 统计 随机 数 
本 节 通 过 一 个 实例 介绍 使 用 数组 的 一 些 基本 模式 。 问 题 是 这 样 的 : 首先 生成 一 列 0-9 的 随机 数 保 















































存在 数组 中 ， 然 后 统计 其 中 每 个 数字 出 现 的 次 数 并 打印 ， 检 查 这 些 数 字 的 随机 性 如 何 。 随 机 数 
在 某 些 场合 (例如 游戏 程序 ) 中 是 非常 有 用 的 ， 但 是 用 计算 机 生成 完全 随机 的 数 却 不 是 那么 容 
易 的 。 计 算 机 执行 每 一 条 指令 的 结果 都 是 确定 的 ， 没 有 一 条 指令 产生 的 是 随机 数 ， 调 用 C 标 准 库 
得 到 的 随机 数 其 实 是 伪 随 机 (Pseudorandom) 数 ， 是 用 数学 公式 算出 来 的 确定 的 数 ， 只 不 过 这 
些 数 看 起 来 很 随机 ， 并 且 从 统计 意义 上 也 很 接近 均匀 分 布 (Uniform Distribution) 的 随机 数 。 


C 标 准许 中 生成 伪 随 机 数 的 是 rand 邓 数 ， 使 用 这 个 明 数 需要 包 合 头 文件 stdlibh 它 没 有 参数 ， 
返回 值 是 一 个 介 于 0 和 RAND_MAx 之 则 的 接近 均匀 分 布 的 整数 。RAND _MAX 是 头 文件 1 定义 的 一 个 党 
量 ， 在 不 同 的 平台 上 有 不 同 的 取 值 ， 但 可 以 肯定 它 是 一 个 非常 大 的 整数 。 通 常 我 们 用 到 的 随机 
数 是 限定 在 某 个 人 范围 之 中 的 ， 例 如 0~9 ， 而 不 是 0~RAND_MAX ， 
数 的 返回 值 处 理 一 下 : 
























































































































































































































































































































































































































































完整 的 程序 如 下 : 





例 8.2. 生成 并 打印 随机 数 


: #include <stdio.h> 
| #include <stdlib.h> 
: #define N 20 


| iiie a[N]; 


: void gen random(int upper bound) 
Pd 
ime dip 
wow (aL = Os a < WS atstar)) 

afi] = rand() $ upper boung; 


a 


: void print random() 

a 

: abd Ap 

ror (al = Op a < Ng dip) 
pemer (eel Wr. e 

: joyealioue (Nn 

E 


: int main(void) 


d 


gen_random (10); 
print random(); 
return 0; 















































里 介绍 一 种 新 的 语法 : 用 #aefine 定 义 一 个 常量 。 实 际 上 编译 器 的 工作 分 为 两 个 步骤 ， 先 是 预 
理 (Preprocess) ， 然 后 才 是 编译 ， 用 gcc 的 -选项 可 以 看 到 预 处 理 之 后 、 编译 之 前 的 程序 ， 








EM 























例如 : 


iS gcc -E main.c 



































D dee (这 里 省 略 了 很 多 行 stdaio.h 和 stdlib.nh 的 代码 ) 
; int a[20]; 
: void gen random(int upper bound) 
b 

alg ofp 

ror (GL = op x < BOP 3s) 

ali] = rand() $ upper bound; 

RI 
| void print random() 
Pd 
FE dug adip 


cor (a = Op x < 20p xu) 
ounen (Sel Wr mx» 


eae (Y\ sai }) 9 
D 


| int main (void) 

B 

|! gen random(10); 
print random(); 
return 0; 


i} 











n] UL CEI E Ah BR a fe WIES 

把 taefine 定 义 的 标识 符 N 替 换 成 它 的 定义 20 (在 代码 

APN RL 1) o ffi tincludef 
(Preprocessing Directive) , 


可 以 达到 同样 的 效果 ， 只 做 预 处 理 而 















































那么 4aefine 定 义 的 常量 和 





























是 把 头 文 件 













































































25, define MX H J AE 常量 ， 
Hal EW, definet VEF] 
































stdio.h#llstdlib. eae ! 
! 做 了 三 处 蔡 换 ， 分 
stan UMS LANI RH UM 
o T 些 预 处 理 指示 

















，cpp 表 示 C AE A 


起 ” 讲 枚 举 定义 的 常量 有 什么 区 别 呢 ? 首 

























































































于 数组 的 KE 




















EAJ, Biani 





, Hepp ens 




















令 也 


wale HF 看 法 结构 ， 称 为 宏 (Macro) 定义 ， 以 后 会 
了 理 的 ， 而 枚 举 是 在 编译 阶段 处 














: #include <stdio.h> 
|: #define RECTANGULAR 1 


: #define POLAR 2 


i int main (void) 


i 


int RECTANGULAR; 
prine: (LU xol xoa 
return 0; 


RECTANGULAR, 


POLAR); 








读者 可 以 试 试看 ， 比 较 分 析 一 下 这 个 程序 和 原来 的 程序 有 什么 区 别 。 
开始 为 了 便于 分 析 和 调试 ， 我 们 取 小 一 点 的 数组 长 度 ， 只 生成 20 个 随机 数 ， 这 个 程序 的 运行 结 























HE > 
INA 














回 到 随机 数 这 个 程序 ， 一 

















:3 87 SSS 6Ãã2 912708936062 6 








看 起 来 很 随机 了 。 但 随机 性 妇 





ie? 分 布 得 均匀 吗 ? 所 i 








一 样 的 。 在 上 面 的 20 个 结果 











6 出 现 了 5 次 ， 














上 大， 毕 苋 我 们 的 样本 太 小 了 ， 
每 个 数 出 现 的 次 数 也 许 能 说 明 i 
{i GT ee 数 统计 每 个 数字 出 现 的 次 数 。 

































































胃 均 匀 分 布 ， 应 











应 该 每 个 数 出 现 的 概率 是 
而 4 和 8 一 次 也 没 出 现 过 。 但 这 说 明 不 了 什么 间 
dari 如 果 样 本 足够 大 ， 比 如 访 
总 不 能 把 100000 个 数 都 打印 出 来 然后 挨个 
完整 的 程序 如 下 : 





100000 个 数 ， 


统计 一 下 其 
































ACIDS ? R 


例 8.3. 统计 随机 数 的 分 布 


: #include <stdio.h> 
: #include <stdlib.h> 
: #define N 100000 
dmt aN] = 


: void gen random(int upper bound) 


alone, al. 6 
oie (aL = (p a «€ INP abe) 
: afi] = rand() $ upper boung; 
i 
n howmany(int value) 
 { 
1 dine Coume = Op ip 
fora = Os N T) 
if (a[i] == value) 
eo 
: return count; 
:] 


| done main(void) 
Pd 


ag alg 


gen random(10); 

printf ("value\thow manyNn"); 

oie (GL = (s a «& Jg a) 
rmt (nse Ne Se wna 


return 0; 












































注意 ， 我 们 把 taefine N 的 值 改 为 100000 ， 相 当 于 把 整个 程序 中 所 有 用 到 N 的 地 方 都 改 
el 与 之 相反 的 做 法 称 为 硬 编码 (Hard coding) : 在 定义 数组 时 直接 写成 int 

在 每 个 循环 中 也 直 接 使 用 20 这 个 值 。 如 果 原 来 的 代码 是 硬 编码 的 ， 那么 一 旦 需要 把 20 改 
成 100000 就 : E 常 麻烦 ， 你 需要 找 裔 整个 代码 ， 判 断 哪些 20 表 示 这 个 数组 的 长 度 就 改 为 100000， 
哪些 20 表 示 别 的 数量 则 不 做 改动 ， 如 尺码 很 长 ， 这 是 很 容易 出 错 的 。 所 以 ， 写 代码 时 应 尽 可 
能 避免 硬 编码 ， 这 其 实 也 是 一 个 “提取 公 因 式 " 的 过 程 ， 和 第 2 节 “ 数 " 讲 的 抽象 具有 相同 的 
咎 用 ， 就 是 避免 一 个 地 方 的 改动 波及 到 大 的 范围 。 这 个 程序 的 运行 结果 如 下 : 











































































































































































































































































































: value how many 
:0 10130 
pU. 10072 
2 9990 
o 9842 
:4 10174 
5 9930 
6 10059 
Lon 9954 
ES 9891 
:9 9958 











各 数字 出 现 的 次 数 都 在 10000 次 左右 ， 可 见 是 比较 均匀 的 。 
习题 


、 用 rang 函 数 生成 10~20 之 间 的 随机 整数 ， 表 达 式 应 该 怎么 写 ? 











3. 数组 应 用 实例 : 直方 图 
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3. 数组 应 用 实例 : 直方 图 


继续 上 面 的 例子 。 我 们 统计 一 列 0~9 的 随机 数 ， 打 印 每 个 数字 出 现 的 次 数 ， 像 这 样 的 统计 结果 称 
为 直方 图 (Histogram) 。 有 时 候 我 们 并 不 只 是 想 打 印 ， 更 想 把 统计 结果 保存 下 来 以 便 做 后 续 处 
理 。 我 们 可 以 把 程序 改 成 这 样 : 
















































































ne main (void) 

d 
| howmany (1); 
howmany (2) ; 


int howmanyones 
int howmanytwos 












































JOLAAKEENÉID. SLADDURÉENBSBUSCH 1004 6? 显然 这 里 用 数组 最 合适 不 过 了 : 

















| int main(void) 
E 


me ROSE LO] 9 


gen random(10); 
for (a = Of i < 10; i++) 
histogram[i] = howmany (i); 



































意思 的 是 ， 这 里 的 循环 变量 | 有 两 个 作用 ， 一 是 作为 参数 传 给 hpowmany 函 数 ， 统 计数 字 i 出 现 的 
UR 二 是 做 histogram 的 下 标 ， 也 就 是 “把 数字 i 出 现 的 次 数 保 存在 数组 histogram 的 第 i 个 位 







































































尽管 上 面 的 方法 可 以 准确 地 得 到 统计 结果 ， 但 是 效率 很 低 ， 这 100000 个 随机 数 需要 从 头 到 尾 检 
AFAN, 每 一 遍 检 查 只 统计 一 种 数字 的 出 现 次 数 。 其 实 可 以 把 histogram 1 的 存储 单元 当 作 累加 
句 来 用 ， 这 些 随机 数 只 需要 从 头 到 尾 检查 一 遍 (Single Pass) 就 可 以 得 出 结果 : 














































































































| int main(void) 
XT 
: int i, histogram[10] = {}; 


gen random(10); 
for (i = 0; i < N; ict) 
++histogram[a[i]]; 















































首先 把 histogram 的 所 有 元 素 初 始 化 为 0， 注 意 使 用 局 部 变量 的 值 之 前 一 定 要 初始 化 ， 否 则 值 是 
不 确定 的 。 接 下 来 的 代码 很 有 意思 ， 在 每 次 循环 中 ，a[i] 就 是 出 现 的 随机 数 ， 而 这 个 随机 数 同 
时 也 是 pistogram 的 下 标 ， 这 个 随机 数 每 出 现 一 次 就 把 histogram 相应 的 元 素 加 1。 


把 上 面 的 程序 运行 几 遍 ， 你 就 会 发 现 每 次 产生 的 随机 数 都 是 一 样 的， 不仅 如 此 ， 在 别 的 计算 机 

上 运行 该 程序 产生 的 随机 数 很 可 能 也 是 这 样 的 。 这 正 说 明了 这 些 数 是 伪 随 机 数 ， 是 用 一 套 确定 

的 公式 基于 其 个 初 值 算出 来 的 ， 只 要 初 值 相同 ， 随 后 的 整个 数列 就 都 相同 。 实 际 应 用 中 不 可 能 

使 用 每 次 都 一 样 的 随机 数 ， 例 如 开发 一 个 麻将 游戏 ， 每 次 运行 这 个 游戏 摸 到 的 牌 不 应 该 是 一 样 

的 。 因 此 ，C 标 准 库 允 许 我 们 自己 指定 一 个 初 值 ， 然 后 在 此 基础 上 生成 伪 随 机 数 ， 这 个 初 值 称 

为 Seed， 可 以 用 srang 也 数 指定 Seed。 通 常 我 们 通过 别 的 途径 得 到 一 个 不 确定 的 数 作为 Seed， 
[16] 

























































































































































































































































































































































































例如 调用 time 函 数 得 到 当前 系统 时 间距 1970 年 1 月 1 日 00:00:00 ”的 秒 钟 数 ， 然 后 传 给 srana: 














! srand (time (NULL) ) ; 























然后 再 调用 rand， 得 到 的 随机 数 就 和 刚才 完全 不 同 了 。 调 用 time 函 数 需 要 包含 头 文件 time .h， 
这 里 的 NULL 表 示 空 指针 ， 以 后 再 详细 解释 。 


习题 






































1、 补 完 本 贡 直 方 图 程序 的 main 函 数 ， 以 可 视 化 的 形式 打印 直方 图 。 例 如 上 一 节 统 计 20 个 随机 数 


的 结果 是 : 


















































[16] 各 种 派生 自 UNIX 的 系统 都 把 这 个 时 刻 称 为 Epoch ， 因 为 UNIX 系 统 最 早 发 明 于 1969 年 。 




















Si 


2. 数组 应 用 实例 : 统计 随机 数 





4. FIFE 
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4. FE 
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之 前 我 一 直 对 字符 串 避 而 不 谈 ， 不 做 详细 解释 ， 现 在 已 经 具备 了 必要 的 基础 知识 ， 可 以 深入 讨 
he. 口 7r 


VO FABRI. ARERR LEP, ECR ASE, BID ETE EB Hello, 
world. \n" 图 示 如 下 















































图 8.2. 字符 串 
































注意 末尾 有 一 个 字符 \0' 表 示 字 符 串 结束 。 这 里 的 \0 是 ASCII 码 的 八进制 表示 ， 也 就 是 ASCII 码 
为 0 的 那个 字符 。 前 面 用 过 的 数组 都 有 一 个 数组 名 ， 数 组 元 素 可 以 通过 数组 名 加 下 标的 方式 访 
问 。 而 字符 串 字 面值 也 可 以 像 数 组 名 一 样 使 用 ， 可 以 加 下 标 访 问 其 中 的 字符 : 









































































































































| "Helle, world.\n" [0] = 'A'; 









































这 行 代码 会 产生 编译 错误 ， 说 字符 串 字 面值 是 只 读 的 ， 不 允许 修改 。 字 符 串 字面 值 还 有 一 点 和 
数组 名 类 似 ， 做 右 值 使 用 时 自动 转换 成 指向 首 元 素 的 指针 ， 所 以 printf ("hello worla") 其 实 是 


传 一 个 指针 参数 给 printf。 















































































































































数组 ， 也 可 以 用 一 个 字符 串 字 面值 来 初始 














oss 
E 




















前 面 讲 过 数组 可 以 像 结构 体 一 样 初始 化 ， 如 果 是 字 
化 : 























str 的 后 四 个 元 素 没 有 指定 ， 自 动 初始 化 为 0， 即 \0' 字 符 。 注 意 ， 虽 然 字 符 捉 字面 值 "Hello" 是 只 
读 的 ， 但 用 它 初 始 化 的 数组 str 却 是 可 读 可 写 的 。 数 组 str 保 存 了 一 串 字 符 ， 以 \0' 结 尾 ， 也 可 以 
字符 串 。 在 本 书 中 字符 串 这 个 概念 指 的 是 以 \0' 结 尾 的 一 串 字 符 ， 可 能 是 像 str 这 种 数组 ， 也 可 
能 是 像 "aello" 这 种 字符 串 字 面值 。 


如 果 用 于 初始 化 的 字符 串 字 面值 比 数组 还 长 ， 比 如 : 





























































































































































































































emer es = Yello, le 











































































































一 个 字符 串 字面 值 准确 地 初始 化 一 个 字符 数组 ， 最 好 的 办 法 是 不 指定 数组 的 长 度 ， 而 让 编译 器 
































字符 串 字 面值 的 长 度 包括 \0' 在 内 一 共 15 个 字符 ， 编 译 器 会 确定 数组 str 的 长 度 为 15。 


补充 一 点 ，printf 函 数 的 格式 化 字符 串 中 可 以 用 %s 表 示 字 符 串 的 占 位 符 。 在 学 字符 数组 以 前 ， 
我 们 用 %s 没 什么 音义， 因为 

































































































































































"prenbt('"string: os se, 




















printf 会 从 数组 str 的 开头 一 直 打 印 到 "0' 字 符 为 止 (\0' 本 身 不 打印 ) 。 这 其 实 是 一 个 危险 的 信 
号 : 如 有 果 数 组 str 中 没有 \0'， 那 么 print tf 就 会 打印 出 界 ， 后 采 和 前 面 讲 的 数组 访问 越界 一 样 诡 
异 : 有 时 候 打 印 出 乱码 ， 有 时 候 看 起 来 没 错误 ， 有 时 候 引 起 程序 崩溃 。 


上 一 页 下 一 页 




























































































3. 数组 应 用 实例 : 直方 图 5. 多 维 数组 





5. 多 维 数组 
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5. 多 维 数组 











就 像 结 构 体 可 以 舱 套 一 样 ， 数 组 也 可 以 甬 套 ， 一 个 数组 的 元 素 可 以 是 另外 一 个 数组 ， 这 样 就 构 
成 了 多 维 数组 (Multi-dimensional Array) 。 例 如 定义 并 初始 化 一 个 二 维 数组 : 












































素 a[0][0]、a[0][1] ， 这 两 个 元 素 的 类 型 是 int ， 值 分 别 是 1、 
是 3、4， 数 组 a[2] 的 两 个 元 素 是 5、0。 如 下 图 所 示 : 








图 8.3. 多 维 数组 





a[0][0] a[0][1] a[1][0] a[1][1] a[2][0] a[2][1] 


J 
e eee 











数组 a 有 3 个 元 素 ，a[0]、a[1]、a[2]。 每 个 元 素 也 是 一 个 数组 ， 例 如 af[0] 是 一 个 数组 ， 它 有 两 个 元 


2， 同 理 ， 数 组 af1] 的 两 个 元 素 














从 概念 模型 上 看 ， 这 个 二 维 数组 是 三 行 两 列 的 表格 ， 元 素 的 两 个 下 标 分 别 是 行 号 和 列 号 。 从 物 
就 像 一 维 数组 一 样 ， 相 当 于 



































理 模 型 上 看 ， 这 六 个 元 素 在 存储 器 中 仍然 是 连续 存储 的 ， 






































巴 概念 模 



































型 的 表格 一 行 一 行 接 起 来 拼 成 一 串 ，C 语 言 的 这 种 存储 方式 称 为 Row-major 方 式 ， 
































major 方 式 。 



































多 维 数 组 也 可 以 像 侍 套 结 构 体 一 样 ， 用 和 藤 套 Initializer 初 始 化 ， 例 如 上 面 的 二 






































注意 ， 除 了 第 一 维 的 长 度 可 以 由 编译 器 自动 计算 而 不 需 : 
度 。 如 果 是 字符 数组 ， 也 可 以 符 套 使 用 字符 串 字 面 





















































例 8.4. 多 维 字符 数组 


dH 
值 做 Initializer， 例 如 : 

















ot 





HAE, NA 





维 数组 也 可 以 这 样 


余 各 维 都 必须 明确 指 








而 有 些 编程 语 
言 (例如 FORTRAN) 是 把 概念 模型 的 表格 一 列 一 列 接 起 来 拼 起 一 串 存 储 的 ， 称 为 Column- 








KER 


; #include <stdio.h> 


| void print day(int day) 
B4 
| char days[8] [10] 


{ n" M "Monday", "Tuesday", 
: "Wednesday", "Thursday", 
ve 

: "Saturday", "Sunday" }; 


it (day < 1 ||| day > 7) 
printf("Illegal day number! \n"); 
printf("Ss\n", days[day]); 
: } 


phus main(void) 


ia 


print day(2); 
return 0; 























这 个 程序 和 例 4.1“switch 语 句 * 的 功能 其 实 是 一 样 的 ， 但 是 代码 简洁 多 了 。 简 洁 的 代码 不 仅 可 读 
性 强 ， 而 且 维 护 成 本 也 低 ， 像 i 4.1 "switchi& AD AREF 堆 case、 printffllbreak , 如 Rm 
个 break 就 要 出 Bug 。 这 个 程序 之 所 以 简洁 ， 是 因为 用 数据 代替 了 代码 。 具 体 来 说 ， 通 过 下 标 访 
问 字 符 串 组 成 的 数组 可 以 代替 一 推 case 分 文 判断， 这 样 就 可 以 把 每 个 case 里 重复 的 代 三 
(printf 调 用 ) 提取 出 来 ， 从 而 义 一 次 达到 了 “提取 公 因 式 " 的 效果 。 这 种 方法 称 为 数据 驱动 的 编 
¥ (Data-driven Programming) ， 写 代码 最 重要 的 是 选择 正确 的 数据 结构 来 组 织 信息 ， 设 计 控 
制 流程 和 算法 尚 在 其 次 ， 只 要 数据 结构 选择 得 正确 ， 其 它 代码 自 然而 然 就 变 得 容易 理解 和 维护 
了 ， 就 像 这 里 的 printE 目 然而 然 就 被 提取 出 来 了 。[ 人 月 神话 ] 中 说 过 :“Show me your 
flowcharts and conceal your tables, and | shall continue to be mystified. Show me your tables, 
and | won't usually need your flowcharts; they'll be obvious.” 


最 后 ， 综 合 本 章 的 知识 ， 我 们 来 写 一 个 最 简单 的 小 游戏 一 一 剪刀 石头 布 : 
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例 8.5. 剪刀 石头 布 


: #include <stdio.h> 
Prine lide <stdlib.h> 
: #include <time.h> 


i int main(void) 
En 
: char gesture[3][10] = ( "scissor", "stone", 
cloth ); 
P int man, computer, result, ret; 


srand(time (NULL)); 
while (1) { 
computer = rand() % 3; 
i printf("\nInput your gesture (0-scissor 
: 1- stone 2-cloth):\n"); 
ret = scanf("$d", &man); 
if (ret l= T || man <0 || man > 2) í 
| printf("Invalid input! Please 
| Toe 0; 1 Os 2 aye 
: continue; 
} 
P printf("Your gesture: $sNtComputer's 
‘gesture: gs\n", 
: gesture [man], 
: gesture[computer]); 
result = (man - computer + 4) $ 3 - 1; 
aS (eel = O) 


prine (VoD wia yat) e 
else if (result == 0) 

prime (Wirawan Wi e 
else 

printf ("You lose!\n"); 


} 


return 0; 
































0、1、2 三 个 整数 分 别 是 剪刀 石头 布 在 程序 中 的 内 部 表示 ， 用 户 也 要 求 输入 0、1 或 2， 然 后 和 计 
算 机 随机 生成 的 0、1 或 2 比 胜 负 。 这 个 程序 的 主体 是 一 个 死 循环 ， 需 要 按 Ctrl-C 退 出 程序 。 以 往 
我 们 写 的 程序 都 只 有 打印 输出 ， 在 这 个 程序 中 我 们 第 一 次 碰 到 处 理 用 户 输入 的 情况 。 在 这 里 只 
是 简单 解释 一 下 ， 以 后 再 细 讲 。 scanf ("%d", gman) 这 个 调用 的 功能 是 等 待 户 输入 一 个 整数 并 
回 车 ， 这 个 整数 会 被 scanf 函数 保存 在 man 这 个 整 型 变量 里 。 如 果 用 户 输入 合法 (输入 的 确实 是 
整数 而 不 是 字符 种) ， 则 scanf 函 数 返 回 1， 表 示 成 功 读 入 一 个 数据 。 但 即使 用 户 输 入 的 是 整 
数 ， 我 们 还 需要 进一步 检查 是 不 是 在 0~2 的 范围 内 ， 写 程序 时 对 用 户 输入 要 格外 小 心 ， 用 户 有 可 
能 输入 任何 数据 ， 他 才 不 管 游戏 规则 是 什么 。 


和 printf 类 似 ， scanf 也 可 以 用 sc、 SEs ss 等 转换 说 明 。 如 果 E 传 给 scanf 的 第 一 个 参数 
用 sa、sf 或 sc 表示 读 入 一 个 整数 、 浮 点 数 或 字符 ， 则 第 二 个 参数 的 形式 应 该 是 & 运 算 符 加 一 个 相 
应 类 型 的 变量 名 ， 表 示 读 进来 的 数 存 到 这 个 变量 中 ; 如 果 在 第 一 个 参数 中 用 ss 读 入 一 个 字符 
串 ， 则 第 二 个 参数 应 该 是 数组 名 ， 数 组 名 前 面 不 加 & ， 因 为 数组 类 型 做 右 值 时 自动 转换 成 指针 类 
型 ， 而 scanf 后 面 这 个 参数 要 的 就 是 指针 类 型 ， 在 第 10 3€ gdqb 有 scanf 读 入 字符 串 的 例子 。& 运 
算 符 的 作用 也 是 得 到 一 个 指针 类 型 ， 这 个 运算 符 以 后 再 详细 解释 。 


留 给 读者 的 思考 问题 是 : (man - computer + 4) % 3 - 1 这 个 神奇 的 表达 式 是 如 何 比 较 
出 0、1、2 这 三 个 数字 在 “剪刀 石头 布 "意义 上 的 大 小 的 ? 
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部 分 1. CASAT] 





AE 编码 风格 
目录 


1. 4p AZ E 
2. TERE 
3. Jy 未 识 符 命名 
4. ER ZA 
5. indent 工具 


代码 风格 好 不 好 就 像 字 写 得 好 不 好 看 一 样 ， 如 果 一 个 公司 招聘 秘书 ， 肯 定 不 要 字 写 得 难看 的 ， 
同 理 ， 代 码 风 格 糟糕 的 程序 员 肯 定 也 是 不 称职 的 。 虽 然 编译 器 不 会 挑 吻 难看 的 代码 ， 照 样 能 编 
译 通过 ,但 是 和 你 一 个 team 的 其 他 程序 员 肯 定 受 不 了 ， 你 自己 也 受 不 了 ， 写 完 代码 儿 天 之 后 青 
来 看 ， 自 己 都 不 知道 自己 写 的 是 什么 。[SICP] 里 有 句 话 说 得 好 :“Thus, programs must be 
written for people to read, and only incidentally for machines to execute.” 代 码 主 要 为 了 是 写 给 
人 看 的 ， 而 不 是 写 给 机 器 看 的 ， 只 是 顺便 也 能 用 机 器 执行 而 已 ， 如 果 是 为 了 写 给 机 器 看 那 直接 
写 机 需 码 就 好 了 ， 没 必要 用 高 级 语言 了 。 代 码 和 语言 文字 一 样 是 为 】 表达 思想 、 记载 信息 ， 所 
以 一 定 要 写 得 清楚 整洁 才能 有 效 地 表达 。 正 因为 如 此 ， 在 一 个 软件 项 目 尺码 风格 一 般 都 用 
文档 规定 死 了 ， 所 有 参与 项 目的 人 不 管 他 自己 原来 是 什么 风格 ， 都 要 遵 "HA 的 风格 ， 例 
如 Linux 内 核 的 [CodingStyle] 就 是 这 样 个 文档 。 本 章 我 们 以 内 核 的 代码 风格 为 基础 来 讲解 好 的 
编码 风格 都 有 哪些 规定 ， 这 些 规 定 的 Rationale 是 什么 。 我 只 是 以 内 核 为 例 来 讲解 编码 风格 的 概 
念 ， 并 没有 说 内 核 风 格 就 一 定 是 最 好 的 编码 风格 ， 但 Linux 内 核 项 目 如 此 成 功 ， 足 以 说 明 它 的 编 
码 风格 是 最 好 的 C 语 言 编码 风格 之 一 了 。 
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5. 多 维 数组 
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1. 缩 进 和 空白 


我 们 知道 C 语 言 的 语法 对 编码 风格 并 没有 要 求 ， 空 格 、Tab 和 换行 都 可 以 自己 随意 写 ， 实 现 同 样 
功能 的 代码 可 以 写 得 很 好 看 ， 也 可 以 写 得 很 难看 。 例 如 例 8.5“ 剪 刀 石 尖 布 "那个 程序 如 果 写 成 这 
样 就 很 难看 了 : 




































































例 9.1. 缺少 缩 进 和 空白 的 代码 





i #include <stdio.h> 

: #include <stdlib.h> 

i #include <time.h> 

cee main (void) 

i { 

char gesture[3] [10]={"scissor","stone","cloth"}; 
: int man,computer,result, ret; 

! srand (time (NULL) ); 

i while(1)( 

i computer-rand()$3; 

!printf("NnInput your gesture (0-scissor 1-stone 2- 
P lou) s Wwe) pg 

! ret=scanf ("$d", &man) ; 

: if (ret!-1||man«0| |man>2) { 

prine ("invalid input Please input O 2 \n") > 
: continue; 

:] 

pronti Your gesture: $sNtComputer's gesture: 

: $s\n",gesture[man],gesture[computer]); 

' result=(man-—computert4) 3-1; 

: if (result>0)printf ("You win!Nn"); 

; else if (result==0) printf ("Draw!Nn"); 

: else printf("You lose!\n"); 

- 

ieee pum 00 


} 























一 是 没有 空白 符 (包括 必要 的 换行 ) ， 代 码 密度 太 大 ， 看 着 很 费劲 。 二 是 没有 缩 进 ， 看 不 出 来 
哪个 {和 哪个 } 配 对 ， 像 这 么 短 的 代码 还 能 凑合 着 看 ， 如 有 果 代 码 超 过 一 屏 就 完全 不 可 读 

了 。[CodingStyle] 中 关于 空 日 符 并 没有 特别 规定 ， 因 为 基本 上 所 有 的 C 代 人 码 风 格 对 于 空 日 符 的 规 
定 都 差不多 ， 主 要 有 以 下 几 条 。 


1、 关 键 字 if, while, for 与 其 后 的 控制 表达 式 的 (括号 之 间 插 入 一 个 空格 分 隔 ， 但 括号 内 的 表达 式 
应 紧 贴 括号 。 例 如 : 





































































































































































































2、 双 目 运 算 符 的 两 侧 插 入 一 个 空格 分 隔 ， 单 目 运 算 符 和 操作 数 之 间 不 加 空格 ， 例 
ys =s gall] Ho 

3、 云 算 符 和 操作 数 之 间 也 不 加 空格 ， 例 如 取 结 构 体 成 员 s .a、 函 数 调用 foo (arg1)、 取 数组 
成 员 a[i]。 































































































































































































4、, 号 和 ;号 之 后 要 加 空格 ， 这 是 英文 的 书写 习惯 ， 例 

如 for (i = 1; i < 10; i++)» foo(argl, arg2) 。 

5, DER TR MERIETE ARER, ARRAS RHA A 
更 紧凑 些 例如 for (i=1; 1i<10; i++)、 distance = sqrt(x*x + y*y) 。 但 是 省 略 的 









































空格 一 定 不 要 误导 了 读 代码 的 人 ， 例 如 a|lb ss < 很 容易 让 人 理解 成 错误 的 优先 级 。 


由 于 标准 的 Linux 终 端 是 24 行 80 列 的 ， 接 近 或 大 于 80 个 字符 的 较 长 语句 要 折 行 写 ， 折 行 后 用 
格 和 上 面 的 表达 式 或 参数 对 齐 ， 例 如 : 
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ais pcc t y > 50 
! ea z l 00 
&& y > 0.0) 


| £60 laee (ki NN 
| Atel} «e epe = eno) 














7、 较 长 的 字符 串 可 以 断 成 多 个 字符 串 然后 分 行书 号， 例如: 


i printf ("This is such a long sentence that " 
: "it cannot be held within a line\n"); 














CHERE BST ADR A 1 RBUE — E, DALE SERS PEER This is 


such a long sentence that it cannot be held within a line\n"o 


8、 有 的 人 喜欢 在 变量 定义 语 铝 中 用 Tab 字 符 ， 使 变量 名 对 齐 ， 这 样 看 起 来 也 很 好 ， 但 不 是 严格 
要 求 的 。 



































































































































Saline =~, lo 
—double —=c; 





内 核 关 于 缩 进 的 规则 有 以 下 几 条 。 


1、 要 用 缩 进 体现 出 语句 块 的 层次 关系 ， 使 用 Tab 字 符 缩 进 ， 不 能 用 空格 代替 Tab。 在 标准 
的 Linux 终 端 上 ， 一 个 Tab 看 起 来 是 8 个 空格 的 宽度 ， 有 些 编辑 器 可 以 设置 一 个 Tab 看 起 来 是 几 个 
空格 的 宽度 ， 建 议 设 成 8， 这 样 大 的 缩 进 使 代码 看 起 来 非常 清晰。 规定 不 能 用 空格 代替 Tab 主 要 
是 不 希望 空格 和 Tab 混 在 一 起 做 缩 进 ， 如 果 混 在 一 起 用 了 ， 在 某 些 编辑 器 里 把 Tab 的 宽度 改 了 就 
会 看 起 来 非常 混乱 。 


2、if/else、 while、 do/while、 for» switch 这 些 可 以 带 语句 块 的 语句 ， 语句 块 的 {和 } 应 该 和 关 
键 字 写 在 一 起 ， 用 空格 隔 开 ， 而 不 是 单独 占 一 行 。 例 如 应 该 这 样 写 : 
















































































































































































































































































































































































当然 ， 其 实 更 多 人 习惯 这 样 写 : 

















-语句 列表 


-语句 列 





AS 








内 核 的 写法 和 [K&R] 一 致 ， 好 处 是 不 必 





























LIH 


> 45 


得 都 很 广泛 


3. PUE XLBTURT) P 














E 











在 同一 个 项 目 





























太 多 空 行 ， 
' 能 保持 统一 就 可 以 了 。 




















使 得 一 屏 能 显示 更 多 代码 。 这 两 种 写法 





一 


占 一 行 ， 这 
(une ap aime 19) 
语句 列表 











4、 switch 和 语句 块 




















于 svwitch 不 往 里 缩 进 。 例 如 : 











—»Switch (c) { 
earse 'A': 

= -语句 列表 
—case 'B': 

T -语句 列表 
三 ClSEESUEES 

-语句 列表 













































































的 case、 default 对 齐 写 ， 也 就 是 说 语句 块 里 的 case、 default 相 对 

















隔 开 。 例 如 每 个 函数 定义 之 间 应 该 插入 一 个 空 















































分 成 耕 干 组 ， 用 空 行 分 隔 ， 这 条 规定 不 














5、 代 三 中 每 个 逻辑 段落 之 间 应 该 用 一 个 空 行 4 
行 ， 头 文件 、 全 局 变量 定义 和 函数 定义 之 间 也 应 该 插入 空 行 ， 例 如 : 

| #include <stdio.h> 

: #include <stdlib.h> 

ane iy 

; double h; 

: int foo (void) 

= 语句 列表 

m 

| int bar(int a) 

HAI RE 

m 

| int main(void) 

Pd 

: -语句 列表 

E 
6、 一 个 函数 的 语句 列表 如 果 很 长 ， 也 可 以 根据 相 
严格 要 求 ， 一 般 变量 定义 语句 组 成 一 组 ， 后 面 要 加 



























































空 行 ， return 之 前 要 加 空 行 ， 例如 : 





ne main (void) 


d 


Saline 


25a, b; 


double >c; 














Fi 
AE 


Tea 481 


一 语句 组 2 


se 0; 





2. 注释 
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2. 注释 


单行 注释 应 采用 /x* comment */ 的 形式 ， 用 空格 把 界定 符 和 文字 外 天 多 行 注释 最 常见 的 是 这 
种 形式 : 




















































































Multi-line 
comment 


























PR RK ke ke ke ek 


Multi-line 


comment 
1 kc k ke ke e e e x x f 

















i [KKK KKK KKK e kk \ 
p= Multi-line * 
: * comment es 

1 人 大 大 大 大 大 大 大 大 大 大 大 大 大 f 





























使 用 注释 的 场合 主要 有 以 下 几 种 。 


a ae 
进 。 例 如 内 核 源 代码 kernel/sched.c 的 开头 : 






































息 ， 例 如 文件 名 、 作 者 和 版 本 历史 等 ， 顶 头 写 











m" 





kernel/sched.c 

Kernel scheduler and related syscalls 

Copyright (C) 1991-2002 Linus Torvalds 

1996-12-23 Modified by Dave Grothe to fix bugs in semaphores 


make semaphores SMP safe 
1998-11-19 Implemented schedule timeout() and related stuff 
by Andrea Arcangeli 
2002-01-04 New ultra-scalable O(1) scheduler by Ingo Molnar: 
hybrid priority-list and round-robin design with 
an array-switch method of distributing timeslices 
Row and per-CPU runqueues. Cleanups and useful 
: suggestions 
i * 


+ oe ob ob ot Ot OD) ox ot o6 ot HF HF HF X 


by Davide Libenzi, preemptible kernel bits by 


: Robert Love. 
ZZ 00S] 09> 0S Tt erac tivi tey tuni ngi Dy Conekol as 
x 2004-04-02 Scheduler domains code by Nick Piggin 
E 











2. Se a 等 ， 写 在 函数 定义 上 侧 ， 和 此 函数 定 
久之 间 不 留 空 空 行 ， 顶 头 写 不 缩 进 















































3、 相 对 独立 的 语句 组 注释 。 对 这 一 组 语句 做 特别 说 明 ， 写 在 语句 组 上 侧 ， 和 此 语句 组 之 间 不 留 
空 行 ， 与 当前 语句 组 的 缩 进 一 致 。 注 意 ， 说 明 语句 组 的 注释 一 定 要 写 在 语句 组 上 面 ， 不 能 写 在 
语句 组 下 面 。 































































































4、 代 码 行 右 侧 的 简短 注释 。 对 当前 代码 行 做 特别 说 明 ， 一 般 为 单行 注释 ， 和 代码 之 间 至 少 用 一 
个 空格 隔 开 ， 一 个 源 文件 中 所 有 的 右 侧 注释 最 好 能 上 下 对 齐 。 尽 管 例 2.1“ 带 更 多 注释 的 Hello 
Worlg" 讲 过 注释 可 以 穿插 在 一 行 代码 中 间 ， 但 是 不 建议 这 么 用 。 内 核 源 代码 lib/radix-tree.c 中 的 
一 个 函数 包含 了 上 述 三 种 注释 : 
















































































radix_tree_insert = insert into a radix tree 
@root: radix tree root 

@index: index key 

@item: item to insert 


Insert an item into the radix tree at position @index. 


: int radix tree insert (struct radix tree root *root, 


E 


unsigned long index, void *item) 


struct radix tree node node = NULL, *slot; 
unsigned int height, shift; 

int offset; 

Ine error, 


/* Make sure the tree is high enough.  */ 
if ((!index && !root->rnode) || 
index > radix tree maxindex(root-»height)) 


error = radix tree extend(root, index); 
if (error) 
return error; 


} 


: warning */ 


slot = root-»rnode; 
height = root-—>height; 
shift = (height-1) * RADIX TREE MAP SHIFT; 
offset = 0; /* uninitialised var 
do { 
if (slot == NULL) { 
/* Have to add a child node. */ 
if (!(slot = radix tree node alloc(root))) 


return -ENOMEM; 
if (node) { 
node-»slots[offset] = slot; 
node->count++; 
} else 
root-»rnode = slot; 


} 


/* Go a level down */ 
offset = (index >> shift) & RADIX TREE MAP MASK; 
node = slot; 
slot = node->slots[offset]; 
shift -= RADIX TREE MAP SHIFT; 
height--; 
) while (height » 0); 


if (slot != NULL) 
return -EEXISTIT; 


BUG ON(!node); 

node->count++; 
node->slots[offset] = item; 

BUG ON(tag get (node, 0, offset)); 
BUG ON(tag get (node, 1, offset)); 


return 0; 





[CodingStyle] 
A (ean en ace 






































' 特 别 指出， 函数 内 的 注释 要 尽 可 能 少 月 


来 说 明 你 的 代码 能 
HEX) ， 而 不 是 说 明 怎 样 做 的 ， 只 要 代码 写 得 足够 清晰 ， 怎 样 做 是 一 


。 注 释 只 是 月 







































































的 ， 如 采 你 需要 用 注释 才能 解释 清楚 ， 那 就 表示 你 的 





















































尺码 可 读 性 很 差 ， 除 非 是 特别 需要 提 丁 





























oO 


意 的 地 方才 使 用 函数 内 注释 。 
































5、 复 杂 的 结构 体 定义 比 函 数 更 需要 注释 。 例 如 内 核 源 代码 kernel/sched.c 


构 体 : 




















This is the main, per-CPU runqueue data structure. 

Locking rule: those places that want to lock multiple runqueues 
(such as the load balancing or the thread migration code), lock 
acquire operations must be ordered by ascending &runqueue. 


SA 


| struct runqueue { 


spinlock_t lock; 


/* 
: * nr_running and cpu_load should be in the same cacheline 
! because 
* remote CPUs use both these fields when doing load 
! calculation. 


x 


unsigned long nr running; 


i #ifdef CONFIG SMP 


unsigned long cpu load[3]; 


: #endif 
: unsigned long long nr switches; 
/* 
| * This is part of a global counter where only the total 
: sum 
| * over all CPUs matters. A task can increase this counter 
: on 
* one CPU and if it got migrated afterwards it may 
: decrease 
: * it on another CPU. Always updated under the runqueue 
: lock: 


x 








unsigned long 


unsigned long 
unsigned long 
ibis) dE “Cus, 


nr uninterruptible; 


expired timestamp; 
long timestamp last tick; 
*i dle; 


struct mm_struct *prev_mm; 
prio_array_t *active, *expired, 
int best_expired_prio; 

atomic_t nr_iowait; 


arrays[2]; 


: #ifdef CONFIG SMP 


| endif 


ZH 


struct sched domain *sd; 


/* For active balancing */ 
int active balance; 
int push cpu; 


task t *migration thread; 
Struct list head migration queue; 
Lac CIS 





fdef CONFIG SCHEDSTATS 
/* latency stats */ 
struct sched info rq sched info; 


/* sys sched yield() stats */ 


unsigned long yld_exp_empty; 
unsigned long yld_act_empty; 
unsigned long yld_both_empty; 
unsigned long yld cnt; 


/* schedule() stats */ 
unsigned long sched switch; 
unsigned long sched cnt; 
unsigned long sched goidle; 


/* Ery-to-wake-up() stats */ 
unsigned long ttwu cnt; 
unsigned long ttwu local; 





| endif 


, 






































6、 复 杂 的 宏 定义 和 变量 定义 也 需要 注释 。 例 如 内 核 源 代码 include/linux/jiffies.h 中 的 定义 : 











: /* TICK USEC TO NSEC is the time between ticks in nsec assuming 

: real ACTHZ and */ 

: /* a value TUSEC for TICK USEC (can be set bij adjtimex) 

31 

: #define IIL SE CST ONSNIS ELA (IMUSIC) (SIDI (USS ~ SETS ET ~~ LOO, 
| ACTEZ 83) )) 


S Some arch's have a small-data section that can be accessed 

! register-relative 

: * but that can only take up to, say, 4-byte variables. jiffies 
: being part of 

: * an 8-byte variable may not be correctly accessed unless we 

: force the issue 








Row 

| 4ddefine  J jiffy data . attribute  ((section(".data"))) 

D /* 

|: * The 64-bit value is not volatile - you MUST NOT read it 


* without sampling the sequence number in xtime lock. 
* get jiffies 64() will do this for you as appropriate. 


pow 
Terbern 064 guffysdatasjurfriesvo4, 
; extern unsigned long volatile __jiffy_data jiffies; 
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标识 符 命名 应 遵循 以 下 原则 : 


. 标识 符 的 命名 要 清晰 明了 ， 可 以 使 用 完整 的 单词 和 大 家 易于 理解 的 缩写 。 短 的 单词 可 以 通 
过 去 元 音 形成 缩写 ， 较 长 的 单词 可 以 取 单 词 的 头 几 个 字母 形成 缩写 ， 也 可 以 采用 大 家 基本 
认同 的 缩写 。 例 如 count 写 成 cnt ，block 写 成 blk，length 写 成 len window 5 

成 win ，message 写 成 msg，temporary 可 以 写成 temp， 也 可 以 进一步 写成 tmp。 


2. 内 核 风 格 规定 变量 、 函 数 和 类 型 采用 全 小 写 加 下 划 线 的 方式 命名 ， 常 量 ( 宏 定义 和 枚 举 常 
量 ) JRA 全 大 写 加 下 划 线 的 方式 命名 。 上 面 举例 的 郴 ZU radix. tree insert^ 类 型 
名 struct radix tree_root、 常量 名 RADIX_TREE_MAP_ SHIFT 5 o 有 种 变量 命名 风格 叫 铭 
牙 利 命 名 法 (Hungarian notation) ， 用 变量 名 的 前 级 记录 变量 的 类 型 ， 例 
如 iCnt、pMsg、IpszBlk 等 ，Linus 在 [CodingStyle] 中 毫 不 客气 气 地 讽刺 了 微软 发 明 的 这 一 风 
格 :“Encoding the type of afunction into the name (so-called Hungarian notation) is 
brain damaged - the compiler knows the types anyway and can check those, and it only 
confuses the programmer. No wonder MicroSoft makes buggy programs." 代 码 风 格 本 来 
就 是 一 个 很 有 争议 的 问题 ， 如 果 你 接受 本 章 介 绍 的 内 核 风 格 (也 是 本 书 所 有 范例 代码 的 风 
格 ) ， 就 不 要 使 用 大 小 写 混 合 的 变量 命名 方式 上， 更 不 要 使 用 匈牙利 命名 法 。 


3. 全 局 变量 和 全 局 函数 的 命名 一 定 要 详细 ， 不 惜 多 用 几 个 单词 多 写 几 个 下 划 线 ， 例 如 函数 
各 raqix_tree_insert ， 因 为 它们 在 整个 项 目的 许多 源 文件 中 都 会 用 到 ， 必 须 让 使 用 者 明确 
这 个 变量 或 函数 是 干什么 用 的 。 局 部 变量 和 只 在 一 个 源 文件 中 调用 的 内 部 函数 的 命名 可 以 

fing ut, 但 不 能 太 短 ， 不 要 使 用 单个 字母 做 变量 名 ， 只 有 一 个 例外 : 用 i、j、k 做 循环 变 

量 是 可 以 的 。 


4. 针对 中 国 程序 员 的 一 条 特别 规定 : 禁止 用 汉语 拼音 作为 标识 符 名 称 ， 可 读 性 极 差 。 
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LA 大 小 写 混 合 的 命名 方式 是 Modern C++ 风格 所 提倡 的 ， 在 C++ 代码 中 很 普遍 ， 称 














为 CamelCase) ， 大 概 是 因为 有 高 有 低 像 驼峰 一 样 。 














函数 都 应 该 设计 得 尽 可 能 简单 ， 简 单 的 函数 才 容 易 维护 。 应 遵循 以 下 原则 : 








1. 实现 一 个 函数 只 是 为 了 做 好 一 件 事 情 ， 不 要 把 函数 设计 成 用 途 广泛 、 面 面 俱 到 的 ， 这 样 的 
函数 肯定 会 超 长 ， 而 且 往往 不 可 重用 ， 维 护 困 难 。 


函数 内 部 的 缩 进 层次 不 宜 过 多 ， 一 般 以 少 于 4 层 为 宜 。 如 果 缩 进 层 次 太 多 就 说 明 设计 得 太 
复杂 了 ， 应 该 考虑 分 割 成 更 小 的 函数 来 调用 (这 称 为 Helper Function) 。 


.函数 不 要 写 得 太 长 ， 建 议 在 24 行 的 标准 终端 上 不 超过 两 屏 ， 太 长 会 造成 阅读 困难 ， 如 果 一 
个 函数 超过 两 屏 就 应 该 考虑 分 割 函数 了 。[CodingStyle] 中 特别 说 明 ， 如 果 一 个 函数 在 概念 
上 是 简单 的 ， 只 是 长 度 很 长 ， 这 倒 没 关系 。 例 如 函 3 数 由 一 个 大 的 switenh 组 成 ， 其 中 有 非常 
多 的 case， 这 是 可 以 的 ， 因 为 各 个 case 之 间 互 不 影响 ， 整 个 函数 的 复杂 度 只 等 于 其 中 一 
个 case 的 复杂 度 ， 这 种 情况 很 常见 ， 例如 TCP 协 议 的 状态 机 实现 。 


. 执行 函数 就 是 执行 一 个 动作 ， 子 数 名 通常 应 包含 动词 ， 例 


如 get_ current» radix_tree_inserto 


. 比较 重要 的 函数 定义 上 面 必 须 加 注释 ， 说 此 函数 的 功能 、 参 数 、 返 回 值 、 错 误 码 等 。 

















. 男 一 种 度量 函数 复杂 度 的 办 法 是 看 有 多 少 个 局 部 变量 ，5 到 10 个 局 部 变量 就 已 经 很 多 了 ， 
局 部 变量 再 多 就 很 难 维护 了 ， 应 该 考虑 分 割 函 数 。 
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5. indent 工 具 


indent 工 具 可 以 把 代码 格式 化 成 某 种 风格 ， 例 如 把 例 9.1 “缺少 缩 进 和 空白 的 代码 ”格式 化 成 内 核 
风格 : 

































































i$ indent -kr -i8 main.c 
|: $ cat main.c 
| #include <stdio.h> 
: #include <stdlib.h> 
i #include <time.h> 
poer main (void) 
E 
: awe gienbseesl[39] = ( Vegas", "suas", "elec" pg 
int man, computer, result, ret; 
srand(time (NULL) ); 
while (1) { 
computer = rand() % 3; 
Tam 
; ("\nInput your gesture (0-scissor 1-stone 2- 
BE elorn) ayat)? 


ret = scanf("$d", &man); 

be (ret. l= 1 || maa < 0 || man > 2) í 
| printf("Invalid input! Please input 0, 1 or 
gor E 
i continue; 

} 
printf("Your gesture: %s\tComputer's gesture: 
:3s\n", 


gesture[man], gesture[computer]); 
result = (man - computer + 4) $ 3 - 1; 
if (result » 0) 

[am (Wiel IAUNA) 
else if (result == 0) 

printf ("Draw!\n"); 
else 

printf("You lose! \n"); 


} 


return 0; 














-kr 选项 表示 K&R 风格 ，-i8 表 示 缩 进 8 个 空格 的 长 度 。 如 果 没 有 指定 -nut 选 项 ， 则 每 8 个 缩 进 空格 
会 自动 用 一 个 Tab 代 替 。 注 意 indent 命 令 会 直接 修改 原文 件 ， 而 不 是 打印 到 屏幕 上 或 者 输出 到 另 
一 个 文件 ， 这 一 点 和 很 多 UNIX 命 令 不 同 。 可 以 看 出 ， E. i8 两 个 选项 格式 化 出 来 的 代码 已 经 很 
符合 本 章 介绍 的 代码 风格 了 ， 添 加 了 必要 的 缩 进 和 空白 ， 较 长 的 代码 行 也 会 自动 折 行 。 美 中 不 

FETT AMS IE EHH af, 因为 indent 工 具 也 不 知 UA PRE 逻辑 上 是 一 组 的 ， 空 行 还 是 
需要 自己 动手 添 ， 当 然 ， 原 有 的 空 行 肯定 不 会 被 indent 删 去 的 。 


如 果 你 采纳 本 章 介绍 的 内 核 风 格 ， 基 本 上 -kr -i8 这 两 个 参数 就 够 用 了 。indent 工 具 也 支持 其 它 的 
风格 和 选项 ， 具 体 请 参考 man page。 有 些 时 候 indent 工 具 的 确 非常 有 用 ， 比 如 某 个 项 目 中 途 决 
定 改变 编码 风格 (这 很 少见 ) ， 或 者 往 某 个 项 目 添加 几 个 代码 文件 来 自 另 一 个 编码 风格 不 同 

的 项 目 ， 但 是 不 能 因为 有 了 indent 就 不 遵守 编码 风格 ， 决 不 能 一 开始 把 代码 写 得 乱七八糟 然后 依 
靠 indent 去 格式 化 ，。 
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程序 中 除了 一 目 了 然 的 Bug 之 外 都 需要 一 定 的 调试 手段 来 分 析 到 底 错 在 哪 。 到 目前 为 止 我 们 的 调 
试 手段 只 有 一 种 : 根据 程序 执行 时 的 出 错 现 象 假设 错误 原因 ， 然 后 在 代码 中 适当 的 位 置 插 
入 printf， 执 行程 序 并 分 析 打 印 结 采 ， 如 采 结 有 末 和 预期 的 一 RE, 就 基本 上 证 明了 目 己 假设 由 第 
误 原 因 ， 就 可 以 动手 修正 Bug T, 如 果 结 果 和 预期 的 不 一 样 ， 就 根据 结 采 做 进一步 的 假设 和 分 
析 。 本 章 我 们 介绍 一 种 非常 强大 的 调试 工具 gdb ， 可 以 完全 操控 程序 的 运行 ， 使 得 程序 就 像 你 手 
J 样 ， 叫 它 走 就 走 ， 叫 它 停 就 停 ， 并 且 随 时 可 以 查看 程序 中 所 有 的 内 部 状态 ， 比 如 各 

量 的 值 、 传 给 函数 的 参数 、 当 前 执行 的 语句 位 置 等 。 掌 握 了 gdb 的 用 法 以 后 ， 调 试 的 手段 就 更 
。 但 要 注意 ， 即 使 调试 的 手段 非常 丰富 了 ， 其 基本 思想 仍然 是 “分 析 现 象 -> 假设 错误 原 
Al- > 产生 新 的 现象 去 验证 假设 这 样 一 个 循环 ， 根 据 现象 如 何 假设 错误 原因 ， 以 及 如 何 设计 新 的 
现象 去 验证 假设 ， 这 都 需要 非常 严密 的 分 析 和 思考 ， 如 果 因 为 手 里 有 ] 强大 的 工具 就 滥用， 而 
忽视 了 严谨 的 思维 ， 往 往 会 治标 不 治本 地 修正 Bug ， 导 致 一 个 错 误 现象 消失 了 但 Bug 仍 然 存在 ， 
甚至 是 把 程序 越 改 越 错 。 本 章 通 过 几 个 初学 者 易 犯 的 错误 实例 来 讲解 如 何 使 用 gdb 调 试 程序 ， 在 
每 个 实例 后 面 总 结 一 部 分 常用 的 gdb 命 令 。 
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看 下 面 的 程序 : 











例 10.1. 函数 调试 实例 


; #include <stdio.h> 


‘ie add_range(int low, int high) 


A 
int i, sum; 
GE (al e Low aL <= lmnop aF) 
sum = sum + i; 
return sum; 
i} 


i qme main(void) 


P4 

| int result[100]; 
result[0] = add range(1, 10); 
result[1] = add range(1, 100); 


printf ("result [0]=%d\nresult[1]=%d\n", 
: result [0], result[1]); 
: return 0; 


T 









































add. |. range ALM ow 2llnigh , Emain PŽ 首先 从 1 加 到 10， 把 结果 保存 下 来 , 然后 从 1 加 
到 100， 再 把 结果 保存 下 来 ， 最 后 打印 出 的 两 个 结果 是 : 
























































| result [0]= 
resule(t]=5105 




















第 一 个 结果 正确 18]。 第 二 个 结果 显然 不 正确 ， 在 小 学 我 们 就 学 了 高 斯 小 时 候 的 故事 ， 从 1 加 

到 100 应 该 是 5050。 一 段 代 码 ， 第 一 次 运行 结果 是 对 的 ， 第 二 次 运行 却 不 对 ， 这 是 很 常见 的 一 
类 错误 现象 ， 这 种 情况 不 应 该 怀疑 代码 而 应 该 怀疑 数据 ， 因 为 第 一 次 和 第 二 次 运行 的 都 是 同一 
段 代 码 ， 如 果 代码 是 错 的 ， 为 什么 第 一 次 的 结果 能 对 呢 ? 然而 第 一 次 和 第 二 次 运行 时 ， 相 关 的 
数据 却 有 可 能 不 同 ， 错 误 的 数据 会 导致 错误 的 结果 。 在 动手 调试 之 前 ， 读 者 先 试 试 只 看 代码 能 
不 能 看 出 错误 原因 ， 只 要 前 面 学 得 扎实 就 应 该 能 看 出 来 。 


在 编译 时 要 加 上 -g 选 项 ， 生 成 的 目标 文件 才能 用 gdb 进 行 调试 : 

: $ gcc -g main.c -© main 

: $ gdb main 

‘GNU gdb 6.8-debian 

' Copyright (C) 2008 Free Software Foundation, Inc. 

i License GPLv3+: GNU GPL version 3 or later 

| «http://gnu.org/licenses/gpl.html» 

‘This is free software: you are free to change and redistribute it. 
' There is NO WARRANTY, to the extent permitted by law. Type "show 
i copying" 

; and "show warranty" for details. 












































































































































































































































i This GDB was configured as "i486-linux-gnu"... 
(gdb) 




















-9 选项 的 作用 是 在 
的 第 几 行 ， 但 并 不 












































目标 文件 
是 把 整个 源 文 伯 























' 加 入 源 代 码 的 信息 ， 上 





FERA FI] 











如 














目标 文件 




















目标 文件 





,， 所 以 在 调试 时 























目标 文人 




















F 时 必须 保 





第 几 条 机 器 指令 对 应 源 代 三 





wil 


Egdbth, 





能 找到 源 文 件 。gdb 提 供 一 个 类 似 shell 的 命令 行 环境 ， 上 面 的 (sab) 就 是 提示 符 ， 在 这 个 提示 符 
下 输入 help 可 以 碍 看 命令 的 类 别 : 











(gdb) help 


| List of classes of commands: 


| aliases -— Aliases of other commands 
: breakpoints -- Making program stop at certain points 
: data -- Examining data 


: files -- Specifying and examining files 


i internals -- Maintenance commands 
: obscure -- Obscure features 

: running -- Running the program 

: stack -- Examining the stack 

i status —— Status inquiries 

! support -- Support facilities 

: tracepoints -— Tracing of program execution without stopping the 


: program 


i user-defined —— User-defined commands 


: Type "help" 
that cilass. 
cae 
: Type "help" 


|: Type "apropos word" 








followed by a class name for a list of commands in 


LTA 


for the list of all commands. 
followed by command name for full documentation. 


to search for commands related to 


: Command name abbreviations are allowed if unambiguous. 






































: (gdb) help files 
i Specifying and examining files. 


List of commands: 


"word" 





' 有 哪些 命令 ， 例 如 查看 files 类 别 下 有 哪些 命令 可 以 用 : 











| add-shared-symbol-files -- Load the symbols from shared objects 


iin the dynam 


; add-symbol-file 
: add-symbol-fil 


ale J 





linker's link map 





"rrom a dynamically loaded-oobgect tile 


: from last line listed 





! generate-core-file 


: the debugged process 


i list -- List specified function or line 




















sole) listw 1 
#include <stdio.h> 


int add_range(int low, 














== Load symbols from FILE 
le-from-memory -- Load the symbols out of memory 


int high) 


Save a core file with the current state of 


! cd -- Set working directory to DIR for debugger and program being 
: debugged 

: core-file -- Use FILE as core dump for examining memory and 

! registers 

i directory -- Add directory DIR to beginning of search path for 
Rcolrtestrlcs 

: edit -- Edit specified file or function 

|! exec-file -- Use FILE as program for getting contents of pure 
i memory 

poco -—- Use FILE as program to be debugged 

: forward-search -- Search for regular expression (see regex(3)) 








alice al, SUNNE 

Ow (a = Jusxgp al <= aLe ma 
sum = sum + i; 

return sum; 


IET 
5 
i 6 
D 7 
:8 
;9 
‘ll 























一 次 只 列 10 行 ， 如 果 要 从 11 行 开始 继续 列 源 代码 可 以 输入 









































也 可 以 什么 都 不 MERRIE, gdb 提 供 了 一 个 很 方便 的 功能 ， 在 提示 符 下 直接 融 回 车 表示 用 
当 的 参数 重复 上 一 条 命令 。 


Ex 

















| (gdb) (直接 回 车 ) 








E dl dl int main(void) 

p Le { 

eb int result[100]; 

: 14 result[0] = add range(1, 10); 

au result[1] = add range(1, 100); 

: 16 printf ("result [0]=%d\nresult[1]=%d\n", result[0], 
i resule tL) 

E L9) return 0; 





i 18 















































gdb 的 很 多 常用 命令 有 简写 形式 ， 例 如 list 命 令 可 以 写成 |， 要 列 一 个 函数 的 源 代码 也 可 以 用 函数 
名 做 参数 : 








! (gdb) 1 add range 

pi #include <stdio.h> 

:2 

pho int add range(int low, int high) 
1 4 { 

o Ine ai, SU, 

E ce (a ce diexwg aL <= iea a) 
Loy sum = sum + i; 

: 8 return sum; 

9 

: 10 


















































现在 把 源 代 码 改名 或 移 到 别处 ， 再 用 gdb 调 试 目 标 文 件 ， 就 列 不 出 源 代 码 了 : 


:$ mv main.c mian.c 
: $ gdb main 


main.c: No such file or directory. 
also) ep 






































"HI gechy- git BOT ASTE TEE SRA BY AOC PEN), FEWN OCP re BOC «EME 
把 源 代码 恢复 原样 ， 我 们 继续 调试 。 首 先 用 start 命 令 开始 执行 程序 : 






























































; (gdb) start 
Prceakpo nnti maoo Onada E pa. 


; Starting program: /home/akaedu/main 
maunocO cab magno: LA 
: 14 result[0] = add range(1, 10); 


























JUR Emain UP AE i x SL Je HS Re ERT aS, gdb MIX RIAA ANE 
还 没 执行 ， 并 且 马 上 要 执行 。 我 们 可 以 用 next 命 令 (简写 为 n) 控制 这 些 语句 一 条 一 条 地 执行 : 


















































(gdb) n 
FE LS result[1] = add range(1, 100); 
i (gdb) (直接 回 车 ) 
: 16 printf ("result [0]=%d\nresult[1]=%d\n", result[0], 


P xeu (dL 131-8 
i (gdb) (直接 回 车 ) 
Testit [0]=55 

: result [1]=5105 

IT return 0; 


























用 n 命 令 依 次 执行 两 行 赋值 语句 和 一 行 打 印 语 句 ， 在 执行 打印 语句 时 结果 立刻 打出 来 了 ， 然 后 停 
在 return 语 句 之 前 等 待 我 们 发 命令 。 昌 然 我 们 完全 控制 了 程序 的 执行 ， 但 仍然 看 不 出 哪里 错 了 ， 
因为 错误 不 在 main 阴 数 而 在 add_range 阴 数 ， 现 在 用 start 命 令 重 新 来 过 ， 这 次 用 step 命 令 (人 简 
EJs) 进入 函数 中 去 执行 : 


‘ (gdb) start 
: The program being debugged has been started already. 
: Start it from the beginning? (y or n) y 


















































































































































: Breakpoint 2 at 0x80483ad: file main.c, line 14. 
: Starting program: /home/akaedu/main 
:main () at main.c:14 


pia result [0] = add range(1, 10); 
: (gdb) s 

i add range (low-1, high-10) at main.c:6 

16 for (i = low; i <= high; i++) 
































这 次 停 在 了 函数 中 变量 定义 之 后 的 第 一 条 语句 处 。 在 函数 中 有 几 种 查看 状态 的 办 
法 ，backtrace 命 令 (简写 为 pt) 可 以 查看 函数 调用 的 栈 帧 : 












































: (gdb) bt 
:#0 tadd range (low=1, high=10) at main.c:6 
: #1 Ox080483cl in main () at main.c:14 




















Ay FL 4 ay Madd_range K žit timain wea FAA, maint KA% 
是 low=1 ，high=10。main 函 数 的 栈 帧 编号 为 1，add_range 的 栈 帧 编号 为 0。 现 在 可 以 用 info 命 
S (简写 为 ) 查看 add_range 局 部 变量 的 值 : 








































































































如 果 想 查看 main 函 数 当前 局 部 变量 的 值 也 可 以 做 到 ， 先 用 frame 命 令 (简写 为 f) 选择 1 号 栈 帧 然 
后 再 查看 局 部 变量 : 

| (gdb) f 1 

:#1 0x080483c1 in main () at main.c:14 

|: 14 result[0] = add range(1, 10); 


: (gdb) i locals 
: result = (0, 0, 0, 0, 0, 0, 134513196, 225011984, -1208685768, - 


: 1081160480, 


-1208623680] 




















TEXtlresulttH UR TR ZUR RUB RILE, FRA, R2 至 初始 化 的 局 部 变 量具 有 不 确 
定 的 值 。 到 目前 为 止 一 切 正常 。 用 s 或 n 往 下 走 几 步 ， 然 后 用 print 命 令 (简写 为 p) 打出 变 


量 sum 的 值 : 

















































































































EO oe 








pene (aL = lowp aL <= loalejlag aF) 


( 
7 
( 
6 
a 
b 7 swum = (UR «Pp aly 
( 
6 
( 
$ 


















































第 一 次 循环 i 是 1， 第 二 次 循环 i 是 2， 加 起 来 是 3， 没 错 。 这 里 的 $1 表示 gdb 保 存 着 这 些 中 间 结 
果 ，$ 后 面 的 编号 会 自动 增长 ， 在 命令 中 可 以 用 $1、$2、$3 等 编号 代替 相应 的 值 。 由 于 我 们 本 
来 就 知道 第 一 次 调用 的 结果 是 正确 的 ， 再 往 下 跟 也 没 意 义 了 ， 可 以 用 finish 命 令 让 程序 一 直 运 行 
到 从 当前 函数 返回 为 止 : 











































































































































































































! (gdb) finish 

: Run till exit from #0 add range (low-1, high-10) at main.c:6 
: 0x080483cl in main () at main.c:14 

p ia result [0] = add range(1, 10); 

: Value returned is $2 = 55 














返回 值 是 55， 当 前 正 准备 执行 赋值 操作 ， 用 s 命 令 赋值 ， 然 后 查看 result 数 组 : 





















































PULS result[1] = add range(1, 100); 
: (gdb) p result 
p 5s = 155. 0. ©, 0. (0, 0, 39451,9196, 22501199894, -—1206860957068, = 


: 1081160480, 




















第 一 个 值 55 确 实 赋 给 了 result 数 组 的 第 0 个 元 素 。 下 面 用 s 命 令 进 入 第 二 次 add _range 调 用 ， 进 入 
之 后 首先 三 看 参数 和 局 部 变量 : 





























: (gdb) s 

: add range (low-1, high=100) at main.c:6 

: 6 for (i = low; i <= high; i++) 
: (gdb) bt 

: #0 add_range (low=1, high=100) at main.c:6 
:#1 0x080483db in main () at main.c:15 

: (gdb) i locals 

















由 于 局 部 变量 | 和 sum 没 初始 化 ， 所 以 具有 不 确定 的 值 ， 又 由 于 两 次 调用 是 挨 厦 的 ， i 和 sum 正 好 
取 了 上 次 调用 时 的 值 ， 原 来 这 跟 例 3.7“ 验 证 局 部 变量 存储 空间 的 分 配 和 释放 ”是 一 样 的 道理 ， 只 
不 过 我 这 次 举 的 例子 设法 让 局 部 变量 sum 在 第 一 次 调用 时 初 值 为 0 了 。i 的 初 值 不 是 0 倒 没 关系 

在 for 循 环 中 会 赋值 为 0 的 ， 但 sum 如果 初 值 不 是 0， 累 加 得 到 的 结果 就 错 了 。 好 了 ， 我 们 已 经 找 
到 错误 原因 ， 可 以 退出 gdb 修 改 源 代码 了 。 如 果 我 们 不 想 浪 费 这 一 次 调试 机 会 ， 可 以 在 gdb 中 马 
上 把 sum 的 初 值 改 为 0 继续 运行 ， 看 看 这 一 处 改 了 之 后 还 有 没有 别 的 Bug : 



































































































































































































































































































: (gdb) set var sum=0 
| (gdb) finish 





‘Run till exit from #0 add range (low=1, high=100) at main.c:6 
; 0x080483db in main () at main.c:15 


: 15 result[1] = add range(1, 100); 

‘Value returned is $4 = 5050 

: (gdb) n 

: 16 printf ("result [0]=%d\nresult[1]=%d\n", result[0], 


erc SEEDS 

i (gdb) (AREE 
: result [0]=55 

i result [1]=5050 

p ALY return 0; 
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Nw 
lg 























这 样 结 果 就 对 了 。 修 改变 量 的 值 除 了 用 set 命 令 之 外 也 可 以 用 print 命 令 ， 因 为 print 命 令 后 面 跟 的 
是 表达 式 ， 而 我 们 知道 赋值 和 函数 调用 也 都 是 表达 式 ， 所 以 还 可 以 print 来 修 改变 量 的 值 ， 或 
A Wal FH KZ: 
































































































































: (gdb) p result[2]=33 

55 = 33 

; (gdb) p printf("result[2]-$dNn", result[2]) 
' result [2]=33 

: $6 = 13 





























我 们 讲 过 ，printf 的 返回 值 表 示 实 际 打 印 的 字符 数 ， 所 以 $6 的 结 
的 gdb 命 令 : 























是 13。 总 结 一 下 本 用 到 


x 


























表 10.1. gdb 基 本 命令 1 








bacrrace (b) [TERRIER 
finish ”| 执行 到 当前 函数 返回 ， 然 后 停 下 来 等 待命 令 


fate CRA MI ae yh 














alie BSE HS] EE 








[oA Dou s 
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8] 好 吧 ， 也 许 我 错 了 ， 在 有 些 平台 和 有 些 操作 系统 上 第 一 个 结果 也 未 必 正 确 ， 如 果 在 你 机 器 上 
运行 的 第 一 个 结果 也 不 正确 首先 检查 一 下 程序 有 没有 抄 错 ， 如 果 没 抄 错 那 就 没关系 了 ， 顺 着 
我 的 讲解 往 下 看 就 好 了 ， 结 果 是 多 少 都 无 关 紧 要 。 




















































































































上 = 页 ike P-A 
第 10 3€ gdb 起 始 页 2. 断 点 


2. 断 点 


上 一 页 第 10 章 gdb 下 一 页 
2. PST a 
看 以 下 程序 : 








例 10.2. 断 点 调试 实例 


; #include <stdio.h> 


‘ime main (void) 


i int sum = 0, i = 0; 

char input [5]; 

while (1) { 

: Scanf("$s", input); 

| for (i = 0; input[i] != '\0'; i++) 

: Soin oUm Om 3uspoouE|aL] = "QUE 
printf("input-£dWMn", sum); 

i } 

: return 0; 

: } 























这 个 程序 的 作用 是 : 首先 从 键盘 读 入 一 串 数 字 存 到 字符 数组 input 中 , RU 

到 sum 2 然后 打印 出 来 ， 一 耳 这 样 循环 下 去 。 scanf("$s", input); 2X7] 个 调用 的 功能 是 等 竺 用 
户 输入 一 个 字符 串 并 回 车 ，scanf 把 其 中 第 一 段 非 空白 〈 非 空格 、 Tab. 、 换 行 ) 的 字符 串 放 
pu 并 自动 在 末尾 添加 \0'。 接 下 来 的 循环 从 左 到 右 扫描 字符 串 并 把 每 个 数字 累加 到 
结果 中 ， 例 如 输入 是 "2345"， 则 循环 mu cupi oa 10+4)*104+5=2345. ER 
符 型 的 PES 的 ASCIl 码 才能 转换 成 整数 值 的 2，'0' 的 ASCII 码 是 48， 而 \0' 的 ASCII 码 是 0， 
二 者 是 不 同 的 。 下 面 编译 运行 程序 看 看 有 什么 问题 : 
































































































































































































































































































































:$ gcc main.c -g -o main 
:$ ./main 
123 

i: input=123 
pO 

| input-123234 

















(Ctz1-C 退 出 程序 ) 























义 是 这 种 现象 ， 每 一 次 是 对 的 ， 第 二 次 就 不 对 。 可 是 这 个 程序 我 们 并 没有 忘 了 赋 初 值 ， 不 
仅 sum 赋 了 初 值 ， 连 不 必 赋 初 值 的 i 都 赋 了 初 值 。 读 者 能 看 出 哪里 错 了 吗 ? 下 面 来 调试 : 














































































































: (gdb) start 

|: Breakpoint 1 at 0x80483b5: file main.c, line 5. 
: Starting program: /home/akaedu/main 

imain () at meneg 

15 im: Stil = ©, a e Of 























S 





可 见 ， 如 果 变 量 要 赋 初 值 ，start 不 会 跳 过 变量 定义 语句 。 有 了 上 一 次 的 经 验 ，sum 被 列 为 重点 





















































MERR, RATH WU Adisplay ar BEBE OC POR AYN Bea LZ pisum, AKRE F 
走 : 














(gdb) display sum 

|: 1: sum = -1208103488 

: (gdb) n 

a Scant ("3s"), input; 
( 


u 
SC 
E 
ll 
© 





| 10 for (i = 0; input[i] != 'NO'; i++) 









































用 undisplay 可 以 取消 对 先前 设置 的 那些 变量 的 跟踪 。 这 个 循环 应 该 是 没有 问题 的 ， 因 为 第 一 次 
的 结果 正确 。 如 果 不 想 一 步 一 步 走 这 个 循环 ， 可 以 用 break 命 令 (简写 为 b) 在 第 9 行 设 一 个 断 点 
(Breakpoint) 



























































: (gdb) 1 

m5 aioe Sin = O, F 

6 char input [5]; 

1 7 

:8 while (1) { 

19 Scams s SIME) A 

; 10 for (i 0s snpat[] I= AOp i) 
p Jg Sum sum iLO r iyase = "(Us 
i2 printf ("input=%d\n", sum); 

: 13 } 

:14 return 0; 

: (gdb) b 9 


! Breakpoint a cue, OXSOABSIoes isk sein e mero 


































































































break 命 令 的 参数 也 可 以 是 函数 名 ， 表 示 在 革 POP AIT © SUE continue a (5 
Xo ee eee GU SENE) 这 样 就 可 以 停 在 下 一 次 循环 的 开 
头 : 

人 NO 

: Continuing. 

; input-123 


‘ Breakpoint 2, main () at main.c:9 
| 9 scanf("%s", input); 
PLS swm = 123 








HE 
5: 
i 
at 
BR 





然后 输入 新 的 字符 上 


| 10 sor (al = Op sbeysxwwE[DL] I= VOV i) 
mE sum = 123 




















问题 暴露 出 来 了 ， 新 的 转换 应 该 再 次 从 0 开始 累加 ， 而 Sum 现在 已 经 是 123 了 ， 原 因 在 于 新 的 循 
环 没有 把 sum 归 零 。 可 见 断 点 有 助 于 快速 跳 过 与 问题 无 关 的 代码 ， 然 后 在 有 问题 的 代码 上 慢 慢 
走 慢 慢 分 析 ,“ 断 点 加 单 步 "是 使 用 调试 器 的 基本 方法 。 至 F 应 该 在 哪里 设置 断 点 ， 怎 么 知道 哪些 
尺码 可 以 跳 过 而 哪些 代码 要 慢 慢 走 ， 也 要 通过 对 错误 现象 的 分 析 和 假设 来 确定 ， 就 像 以 前 分 析 
确定 在 哪里 插入 printf 语 句 一 样 。 一 次 调试 可 以 设置 多 个 断 点 ， 用 info 命 令 可 以 查看 已 经 设置 的 断 





















































































































































































































































: (gdb) b 12 

|: Breakpoint 3 at 0x8048411: file main.c, line 12. 
: (gdb) i breakpoints 

; Num Type Disp Enb Address What 



































































































































































































































































































































|y breakpoint keep y 0x080483c3 in main at main.c:9 

breakpoint already hit 1 time 

a9 breakpoint keep y 0x08048411 in main at main.c:12 
每 个 断 点 都 有 一 个 编号 ， 可 以 用 编号 指定 删除 某 个 断 点 : 

: (gdb) delete breakpoints 2 

: (gdb) i breakpoints 

; Num Type Disp Enb Address What 

3 breakpoint keep y 0x08048411 in main at main.c:12 
ER NE reas 

: (gdb) disable breakpoints 3 

: (gdb) i breakpoints 

; Num Type Disp Enb Address What 

Did breakpoint keep n 0x08048411 in main at main.c:12 

: (gdb) enable breakpoints 3 

: (gdb) i breakpoints 

; Num Type Disp Enb Address What 

iod breakpoint keep y 0x08048411 in main at main.c:12 

: (gdb) delete breakpoints 

Deleted llbreakpornme | iy. (or sn) 

: (gdb) i breakpoints 

: No breakpoints or watchpoints. 
gdb 的 断 点 功能 非常 灵活 ， 还 可 以 设置 断 点 在 满足 某 个 条 件 时 才 激活 ， 例 如 我 们 仍然 在 循环 开头 
也， 然后 用 run 命 令 (WSO 重新 从 程序 开头 连续 执 
行 : 

| (gdb) break 9 if sum != 0 

: Breakpoint 5 at 0x80483c3: file main.c, line 9. 

: (gdb) i breakpoints 

: Num Type Disp Enb Address What 

15 breakpoint keep y 0x080483c3 in main at main.c:9 

stop only if sum != 0 

E (Gelo) ee 

: The program being debugged has been started already. 

p Start it from the beginning? (y or n) y 

: Starting program: /home/akaedu/main 

: 123 

i input-123 

: Breakpoint 55. mae (0) us Wess 

:9 Scanf("$s", input); 

Pils Sun) = 12$ 
结果 是 第 一 次 执行 scanf 之 前 没有 中 断 ， 第 二 次 却 中 断 了 。 总 结 一 下 本 节 用 到 的 gdb 命 令 : 








break 























行 设置 断 点 


个 函数 开头 设置 断 点 


TEE 行 号 





























break PK Zi z 


break. ..if... 


delete ea AH E Pr es 


设置 条 件 断 点 
从 当前 位 置 开 始 连 














dE 
22 
































执行 程序 









































display 变量 名 跟踪 查看 一 个 变量 ， 每 次 停 下 来 都 显示 它 的 值 
disable breakpoints — | 禁用 断 点 


enable breakpoints 
info (或 1) breakpoints| 查 看 当前 设置 了 哪些 断 点 















































从 头 开始 连续 而 非 单 步 执行 和 
BUA CHT BCE WA 


























习题 


1、 看 下 面 的 程序 : 


; #include <stdio.h> 














‘ane main (void) 
i 
: aae. als 

char str[6] = "hello"; 
char reverse str[6] = ""; 


ortae (Ue Wm, guess) 
for (GL e Os aL « Op ab) 

reverse str[5-i] = str[i]; 
printf("$sNMn", reverse str); 
return 0; 











Break H 


首先 用 字符 串 "hello" 初 始 化 一 个 字符 数组 str ( 算 上 \0' 共 6 个 字符 ) 。 然 后 用 空 字 符 串 "初始 化 一 


ry 











































































































个 同样 长 的 字符 数组 reverse_str， 相 当 于 所 有 元 素 用 \0' 初 始 化 。 然 后 打印 str， 把 str 倒 序 存 
入 reverse_str， 再 打印 reverse_str。 然 而 结果 并 不 正确 : 






















































































我 们 本 来 希望 reverse_str 打 出 来 是 oleh 的 ， 结 果 什 么 都 没有 。 重 点 怀疑 对 象 肯定 是 循环 ， 那 么 
简单 验算 一 下 ，i=0 时 ，reverse_str[5] = str[0]， 也 就 是 'h' ，i=1 时 ，reverse_str[4] = str[1], ， 也 就 
















































































JBJ 
是 'e'， 依 此 类 推 ，i=0,1,2,3,4 ， 共 5 次 循环 ， 正 好 把 h,e,l,1,0 五 个 字母 给 倒 过 来 了 ， 哪 里 不 对 了 ? 
请 调试 修正 这 个 Bug。 











1. 单 步 执 行 和 跟踪 函数 调用 





3. 观察 点 JN 






































二 调试 我 们 知道 ， 虽 然 sum 已 经 赋 了 初 值 











fee LVR, Zot 
头 加 上 sum = 0;: 








例 10.3. 观察 点 调试 实例 


i #include <stdio.h> 


me main (void) 


q 


: int sum = 0, i = 0; 

char input[5]; 

: while (1) { 

: sum = 0; 

scanf("Ss", input); 

i one (GL = Og Ee a ENO sae) 
Stim = oUm Om anu [a] = O's 
printf ("input=%d\n", sum); 

i } 

| return 0; 

A 













































































。 现 象 是 这 样 的 : 
































个 诡异 结果 是 怎么 出 来 的 o 





P IRL FTT D iE SUR IX 














: (gdb) start 

' Breakpoint 1 at 0x80483b5: file main.c, 
; Starting program: /home/akaedu/main 
‘main () at main cgs 

15 iim: swm = ©, a = Up 

: (gdb) n 

:9 sum = 0; 

i (gdb) (直接 回 车 ) 
|: 10 scanf ("$s", 
i (gdb) (直接 回 车 ) 
As 

FP tow (i = Of 
plas) 
: (gdb) 


ilm So 





input); 








apoyo EN027 


p input 


ed = "12345" 

















0， 仍 需要 在 while (1) 循环 开 





用 scanf 函 数 是 非常 凶险 的 ， 即 使 修正 了 这 个 Bug 还 存在 很 多 问题 。 如 果 输 入 的 


us 
bs 
字符 串 超 长 了 会 怎么 样 ? 我 们 知道 数组 访问 越界 是 不 会 检查 的 ， 所 以 scanf 会 写 出 
界 


















































input 数 组 只 1 有 5 个 元 素 ， 写 出 界 的 是 scanf 自 动 添 的 \0'， 用 x 命 令 看 会 更 清楚 


| (gdb) x/7b input 
; Oxbfb8£0a7: 0x31 0x32 0x33 0x34 0x35 
: 0x00 0x00 









































MEF NEKEP INA. TEF NRR, DEREAT, TAFT 

印 7 组 H9]。 前 五 个 字 节 是 input 数 组 的 存储 单元 ， 打 印 的 正 是 十 六 进 制 ASCII 码 
的 '1' 到 '5'， 最 后 一 个 是 写 出 界 的 \0'。 根 据 运 行 结 果 ， 前 四 个 字符 转 成 数字 都 没 
错 ， 第 5 个 错 了 ， 也 就 是 | 从 0 到 3 的 循环 都 没 错 ， 我 们 设 一 个 条 件 断 点 从 等 于 4 开始 
































































































































: (gdb) 1 

;6 char input[5]; 

$7 

: 8 while (1) { 

9 sum = 0; 

aeo scanf("$s", input); 

B Lal for (i = 0; input[i] l= '\0'; 
ise) 

p 12 sum = sum*10 + input[i] 
i 一 FO Us 

13 printf ("input=%d\n", sum); 

: 14 } 

| 15 return 0; 

: (gdb) b 12 if i == 4 

: Breakpoint 2 at 0x80483e6: file main.c, line 12. 

: (gdb) c 


Continuing . 


: Breakpoint 2, main () at main.c:12 


1012 sum = sum*10 + input[i] 
dez Not 

: (gdb) p sum 

: $2 = 1234 















































现在 sum 是 1234 没 错 ， 根 据 运行 结果 是 123407 我 们 知道 即将 进行 的 这 步 计 算 肯 年 
要 出 错 ， 算 出 来 应 该 是 12340 ， 那 就 是 说 input[4] 肯 定 不 是 '5 了 ， 事 实证 明 这 个 推 
SH ALAN TAN : 









































































































































: (gdb) x/7b input 
: Oxb£b8f0a7: 0x31 0x32 0x33 0x34 0x35 
: 0x04 0x00 


























input[4] 仍 然 是 0x35， 产 生 123407 还 有 另外 一 种 可 能 ， 就 是 在 下 一 次 循环 

1123450 不 是 加 上 而 是 减 去 一 个 数 得 到 123407。 可 现在 不 是 到 字符 串 末 尾 了 吗 ? 
怎么 会 有 下 一 次 循环 呢 ? 注 意 到 循环 控制 条 件 是 input li] != '\0' ， 而 本 来 应 该 
是 0x00 的 位 置 现在 莫名 其 妙 地 变 成 了 0x04 ， 因 此 循环 不 会 结束 。 继 续 单 步 : 















































































































































pdt wore (a = OF ayayoue [a] I= “Ote 


Baile? sum = sum*10 + input [il] 
= IONS 

; (gdb) x/7b input 

: Oxbfb8£f0a7: 0x31 0x32 0x33 0x34 0x35 

: 0x05 0x00 





进入 下 一 
FERT, 
的 ， 虽 然 多 循环 了 一 


input[4] 后 面 那个 字 
Bee FRA 


时 解 











次 循环 ， 

















ne die 











原来 的 0x04 又 莫名其妙 地 变 成 了 0x05， 这 是 怎么 回 事 ?这 个 暂 








RAY 以 
































EUR RE 


市 到 底 是 什么 时 候 变 的 ? 可 以 





解释 了 ， 





定 会 退出 循环 了 


























是 12345*10 + 0x05 - 0x30 得 到 
了 ， 因 为 0x05 的 后 面 是 \0'。 






































] 知 道 断 点 是 当 程 请 



































存储 








元 时 























二 有 月 





BR E pH: 























watch a Ae me , ER 


























HEURE 
Wr, EARS AB A: 
下 面 删 除 原来 设 的 断 点 ， 从 头 执行 程序 ， 重 复 上 次 的 输入 ， 

察 踪 input[4] 后 面 那 个 字 节 (可 以 用 input[5] 表 示 ， 虽 然 





代码 行 时 














用 观察 点 (Watchpoint) 来 跟 
煌 ， 而 观察 点 是 当 程 序 访 问 革 
















































































存储 单元 是 在 哪里 





被 改动 的 ， 这 时 候 观 



































! (gdb) 


start 








delete breakpoints 
Delete all breakpoints? 
: (gdb) 
' Breakpoint 1 at 0x80483b5: 
! Starting program: 


(SY HE ini) 


file main.c, 
/home/akaedu/main 


X 


bi ov Bs 


' main () at main.c:5 
5 ime sum = Oye i= 0 
: (gdb) n 
! sum = 0; 
(gdb) (直接 回 车 ) 
10 Scanf("$s", input); 
(gdb) “〈 直 接 回 车 ) 
12345 
eril row (Gl e OF soso [ay] de "UNQUS 
i i++) 
: (gdb) watch input[5] 
: Hardware watchpoint 2: input [5] 
! (gdb) i watchpoints 
; Num Type Disp Enb Address What 
Do hw watchpoint keep y input [5] 
: (gdb) c 
"Continuibge 
: Hardware watchpoint 2: input [5] 
: Old value = 0 '\0' 
inevivalue oo 
: 0x0804840c in main () at main.c:11 
iNest noe (Gh = OF aioe [ai] De Ots 
B i++) 
; (gdb) c 
! Continuing. 
; Hardware watchpoint 2: input [5] 
Oded veduve = i o0 
: New value = 2 '\002' 
; 0x0804840c in main () at main.c:11 
"T icone (a = OF suspe] de V WU? 
Pitt) 
Mo NEC 
i Continuing. 
; Hardware watchpoint 2: input[5] 
‘Old value = 2 "\002' 
New valve = 3 “4003 
: 0x0804840c in main () at main.c:11 
| GO 





已 经 很 























HH 












































明显 了 ， 每 次 都 是 for 这 句 改变 了 input[5] 的 值 ， 








而 且 是 每 次 加 1 ， 


而 fori 


xxu 















































一 点 ， 也 许 一 时 想 不 出 原因 






































的 i 正 是 每 次 加 1 的 ， 原 来 input[5] 就 是 i 的 存储 单元 ， 换 铝 话 说 ， i 的 存储 单元 是 紧 
在 input 数 组 后 面 的 。 
修正 这 个 Bug 对 初学 者 来 说 有 一 定 难 度 。 如 果 你 发 现 了 这 个 Bug 却 没 想到 数组 访问 
处 理 另 外 























d: 




















, MAT 





容易 修正 的 Bug : 如 












































果 输 入 的 不 是 数字 而 是 字母 或 别 的 符号 也 能 算出 结果 来 ， 这 显然 是 不 对 的 ， 可 以 
在 循环 中 加 上 判断 条 伯 























TT 


























} 


printf ("input=%d\n", sum); 


sum = 0; 

: Scanf("$s", input); 

i Oi (al = Of soepwne[a.] De NO ss) 4 

i£ (lmome [li] < t0! I| imeti] OE 
: prime (vinealLile aojoxt, Wa) p 

: sum = -1; 

: break; 

1 } 

| Stim = sum O 3gspemuela] — "ovr 

2 




















然后 你 会 慨 喜 地 发 现 ， 不 仅 输入 字母 会 报错 退出 ， 输 入 超 长 也 会 报错 退出 : 


: Invalid input! 
dump. = Tl 
: dead 
: Invalid input! 
input l 
! 1234578 
‘ Invalid input! 


0 地 花王 二 站 
: 1234567890abcdef 
;: Invalid input! 

: input=-1 
23 
ue 2S 












































似乎 是 两 个 Bug 一 起 解决 掉 了 ， 想 想 为 什么 输入 超 长 也 会 报错 退出 。 总 结 一 下 本 节 用 到 的 gdb 命 


4: 















































查看 当前 设置 了 哪些 观察 点 




















从 某 个 位 置 开始 打印 存储 器 的 一 段 内 容 ， 全 部 当成 字 届 来 看 ， 而 
不 区 分 哪些 字 市 属于 哪些 变量 
























































ko 
三 
ND 
"Cd 
S 
ie 
zu 
sir 
At 
这 
Mm 
at 
| 
N 
II 





BSE ae A CA HE, a FoF, ARIAT LAIH. 




















Law JB PA 
2. B 起 始 页 4. 段 错 误 














4. BERTA 


38 10 = gdb Sees 


THER 



































如 果 程 序 运行 时 出 现 段 错误 ， 用 gdb 可 以 很 容易 定位 到 究竟 是 哪 一 行 引 发 的 段 错 误 ， 例 如 这 个 小 








































































































































































































































































































程 
例 10.4. 段 错误 调试 实例 一 
| #include <stdio.h> 
| int main(void) 
Bd 
in mana = Of 
i scanf ("%d", man); 
| return 0; 
TE 
调试 过 程 如 下 
ig gdb main 
| (gdb) r 
: Starting program: /home/akaedu/main 
p ALAS 
: Program received signal SIGSEGV, Segmentation fault. 
: Oxb7e1404b in IO vfscanf () from /lib/tls/i686/cmov/libc.so.6 
: (gdb) bt 
: #0 0xb7e1404b in IO vfscanf () from /lib/tls/i686/cmov/libc.so.6 
: #1 Oxb7eldd2b in scanf () from /lib/tls/i686/cmov/libc.so.6 
: #2 0x0804839f in main () at main.c:6 
在 gdb 中 运行 ， 遇 到 段 错 误会 自动 停 下 来 ， 这 时 可 以 用 命令 查看 当前 执行 到 哪 一 行 代码 
了 。gdb 显 示 段 错误 出 现在 _ IO_vfscanf 函 数 中 ， 用 bt 命令 可 以 看 到 这 个 函数 是 被 我 们 的 scanf 郴 
数 调用 的 ， 所 以 是 scanf 这 一 行 代 人 码 引 发 的 段 错误 。 仔 细 观 察 程序 发 现 是 man 前 面 少 了 个 &。 
上 一 节 我 们 调试 了 一 个 输入 字符 串 转 整数 的 程序 ， 最 后 提出 修正 Bug 的 方法 是 在 循环 中 加 上 判断 
条 件 ， 如 果 不 是 数字 就 报错 退出 ， 不 仅 输入 字母 可 以 报错 退出 ， 输 入 超 长 的 字符 串 也 会 报错 退 
出 。 然 而 真 的 把 两 个 Bug 一 起 解决 了 吗 ? 这 其 实 是 一 种 治标 不 治本 的 办 法 ， 因 为 并 没有 制 
止 scanf 的 访问 越界 。 我 说 过 了 ， 使 用 scanf 通 数 是 非常 凶险 的 。 表面 上 看 这 个 程序 无 论 怎么 运行 





都 不 出 




































































错 了 ， 但 假如 我 们 把 wnile (1) 循环 去 掉 ， 每 次 执行 程序 只 转换 一 个 数 : 








例 10.5. 段 错误 调试 实例 二 


: #include <stdio.h> 











| ugue main(void) 
Pd 
: ine sum = O, a = Op 
char input[5]; 


printf ("input=%d\n", 
return 0; 


sum) ; 


scanf("$s", input); 

' oie (a = Oe aove a fe "WOS"'E xo) d 

ae Gwela] < 0t | 
i peme a fo N, 

| sum = -1; 

: break; 

i } 

Sui = Surman aj) = 10; 

i } 

i} 











"S ee naan 


pa 23456 7390 
: Invalid input! 
DD E 


看 看 会 发 生 什么 


























看 起 来 正常 。 再 来 一 次 ， 这 次 输 个 更 长 
| 9 a mea 
i 1234567890abcdef 
: Invalid input! 
: input--1 


: Segmentation fault 



































MEHMET. FUERA 


i (gdb): <r 

: Starting program: 
: 1234567890abcdef 
' Invalid input! 

: input=-1 


/home/ak 


! Program received signal SIGSEGV, 


: 0x0804848e in main () 





用 gdb 调 试看 看 : 





aedu/main 


Segmentation fault. 


at main.c:19 


i19 } 

: (gdb) 1 

: 14 } 

bP ALS sum = gums Oe sew] = 101s 
16 } 
17 printf ("input=%d\n", sum); 
18 return 0; 








gdb 指 出 ， 段 错误 发 生 在 第 





























E1917. 。 可 是 这 一 行 什么 都 没有 啊 ， 只 有 表示 main 示 数 








ERIS} TE 



































这 可 以 算是 
返回 


条 规律 ， 如 果 某 
时 却 产 生 段 错误 。 


想 要 写 出 Bug-free 的 程序 是 





个 函数 







































































发 生 访 问 越 界 ， 很 可 能 并 不 立即 产生 段 错误 


FE 常 不 容易 的 ， 即 使 scanf 读 入 














， 而 在 函数 














人 日 


字符 串 这 人 么 一 个 人 简单 的 函数 调用 














会 























都 








隐 茂 着 各 种 各 样 的 错误 ， 有 些 错 



































:是 我 们 暂时 没 法 解 




















隐藏 E 误 现 象 
数组 后 面 ?为 什么 同样 





A, A 











在 input 是 访 
段 错 误 在 函数 返回 时 才 出 现 ? 还 有 最 
则 就 出 段 错 误 ， 而 输入 字符 串 就 不 要 

















ABS 


有 





















































本 的 问题 


1&? 这些 





























PEERS: 为 什么 变量 i 的 存储 单元 紧 吕 
时 出 段 错 误 有 时 不 出 段 错 误 ? 为 什么 访问 越界 的 
题 ， 为 什么 scanf 输 入 整 型 变量 就 必须 要 加 &， 否 
问题 在 后 续 节 中 都 会 解释 清楚 。 其 实现 在 









































































































































E. 


ZUM 





讲 scanf 这 个 函数 为 时 过 早 ， 读 者 还 不 



































备 充 足 的 基础 知识 。 但 仍然 是 有 必要 讲 的 ， 学 完 这 一 阶 





段 之 后 读者 应 该 能 写 出 有 用 的 程序 了 ， 然 而 一 个 只 有 输出 而 没有 输入 的 程序 算 不 上 是 有 用 的 程 





序 ， 男 一 方面 也 让 读者 认识 到 ， 和 学 C 语 言 不 可 能 不 去 了 解 底层 计算 机 体系 结构 和 操作 系统 的 原 
理 ， 不 了 解 底层 原理 连 一 个 scanf 函 数 都 没 办 法 用 好 ， 更 没有 办 法 保证 写 出 正确 的 程序 。 











第 11 章 排序 与 查找 





1. 算法 的 概念 





第 11 章 排序 与 查找 
1. 算法 的 概念 


算法 (Algorithm) 是 将 一 组 输入 转化 成 一 组 输出 的 一 系列 计算 步 又， 其 中 每 个 步骤 必须 能 在 有 
恨 时 间 内 完成 。 比 如 第 3 节 “ 递 归 * 习 题 1 中 的 Euclid 算 法 ,输入 是 两 个 正 整 数 ， 输 出 是 它们 的 最 
大 公约 数 ， 计 算 步骤 是 取 模 、 比 较 等 操作 ， 这 个 算法 一 定 能 在 有 限 的 步骤 和 时 间 内 完成 〈( 想 一 
想 为 什么 ?) 。 再 比如 ， 将 一 组 数 按 从 小 到 大 排序 ， 输 入 是 一 组 原始 数据 ， 输 出 是 排序 之 后 的 
数据 ， 计 算 步骤 包括 比较 、 移 动 数据 等 操作 。 


算法 是 用 来 解决 一 类 计算 问题 的 ， 注 意 是 一 类 问题 ， 而 不 是 一 个 特定 的 问题 。 例 如 ， 一 个 排序 
算法 应 该 能 对 任意 一 组 数据 进行 排序 ， 而 不 是 仅 对 int al] = { 1, 3, 4, 2, 6, 5 )}; 这样 一 组 
数据 排序 ， 如 果 只 需要 对 这 一 组 数据 排序 可 以 写 这 样 一 个 函数 来 做 : 


i void sort (void) 


E 













































































UU 















































































































































































































































| 有 LO = ig 
| arl = 2; 
: al2]j = 3> 
| a[3] = 4; 
: a[4] = 5; 
a[5] = 6; 
| } 















































这 显然 不 叫 算法 ， 因 为 不 具有 通用 性 。 由 于 算法 是 用 来 解决 一 类 问题 的 ， 它 必须 能 够 正确 地 解 
决 这 一 类 问题 中 的 任何 一 个 实例 ， 这 个 算法 才 是 正确 的 。 对 于 排序 算法 ， 任 意 输 入 一 组 数据 ， 
它 必须 都 能 输出 正确 的 排序 结果 ， 这 个 排序 算法 才 是 正确 的 。 不 正确 的 算法 有 两 种 可 能 ， 一 是 
对 于 该 问题 的 茶 些 输入 ， 该 算法 会 无 限 计算 下 去 ， 不 会 终止 ， 二 是 对 于 该 问题 的 茶 些 输入 ， 该 
算法 终止 时 输出 的 是 错误 的 结果 。 有 时 候 不 正确 的 算法 也 是 有 用 的 ， 如 果 对 于 某 个 问题 寻求 正 
确 的 算法 很 困难 ， 而 某 个 不 正确 的 算法 可 以 在 有 限时 间 内 终止 ， 并 且 能 把 误差 控制 在 一 定 范围 
内 ， 那 么 这 样 的 算法 也 是 有 实际 意义 的 。 例 如 有 时 候 寻 找 最 优 解 的 开销 很 大 ， 往 往 会 选择 能 给 
出 次 优 解 的 算法 。 


本 节 介绍 几 种 典型 的 排序 和 查找 算法 ， 并 围绕 这 几 种 算法 讲解 算法 的 时 间 复杂 度 分 析 。 读 者 可 
参考 一 些 全 面 系 统 地 介绍 算法 的 书 ， 例 如 [TAOCP] 和 |[ 算 法 导论 ] 等 。 

















































































































































































































































































































































































































































































































上 一 而 dp 下 三 页 
11 HET aK 起 始 页 2. 插入 排序 


2. 插入 排序 
引见 第 11 章 排序 与 查找 Pi 


2. 插入 排序 


插入 排序 算法 类 似 于 玩 扑 克 时 抓 牌 的 过 程 ， 玩 家 每 使 到 一 张 牌 都 要 插入 到 手中 已 有 的 牌 里 ， 
之 从 小 到 大 排 好 序 。 例 如 (该 图 出 自 [算法 导论 ]) : 
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图 11.1. Shoe RATA HEF 
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也 许 你 没有 意识 到 ， 但 其 实 你 的 思考 过 程 是 这 样 的 : 现在 抓 到 一 张 7， 把 它 和 手 里 的 牌 从 右 到 左 
依次 比较 ，7 比 10 小 ， 应 该 再 往 左 插 ，7 比 5 大 ， 好 ， 就 插 这 里 。 为 人 么 比较 了 10 和 5 就 可 以 确 

定 7 的 位 置 ? 为 什么 不 用 再 比较 左边 的 4 和 2 呢 ? HIX ! 有 一 个 重要 的 前 提 : 手 里 的 牌 已 经 是 排 
好 序 的 。 现 在 我 插 了 7 之 后 ， 手 里 的 牌 仍然 是 排 好 序 的 ， 下 次 再 抓 到 的 牌 还 可 以 用 这 个 方法 插 
Na 


编程 对 一 个 数组 进行 插入 排序 也 是 同样 道理 ， 但 和 插入 扑克 牌 有 一 点 不 同 ， 不 可 能 在 两 个 相 邻 
的 存储 单元 之 间 再 插入 一 个 单元 ， 因 此 : :将 插入 点 之 后 的 数据 依次 往 后 移动 一 个 单元 。 排序 算 
法 如 下 : 






























































































































































































































































例 11.1. 插入 排序 


: #include <stdio.h> 


| #define LEN 5 
ine apua = 4 0 5, 27 lr 1 ie 


| void insertion_sort (void) 
:{ 
: augus 3io Jp Key, 
for (j = 1; j< cU 123) 4 
printf("$d, $d, $d, $d, %d\n", 
alol all], a[2], al3], al4]); 


lex; = elg 

aL ES db 

while (i >= 0 && a[i] > key) { 
mail = alalg 


==4 5 


a[i*1] = key; 
} 
purum (sd, S CTS CES TES CN 
| a[0], alil; al2], a[3], a[41); 
P) 


jane main (void) 


:( 


insertion sort(); 
return 0; 





























征 了 打印 语句 ， 在 排序 结束 后 也 插 了 打印 语 
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如 何 严格 证 明 这 个 算法 是 正确 的 ? 换 铝 话说， 只 要 反复 执行 该 算法 的 for 循 环 体 ， 执 行 LEN- 

1 次 ， 就 一 定 能 把 数组 a 排 好 序 ， 而 不 管 数组 a 的 原始 数据 是 什么 ， 如 何 证 明 这 一 点 呢 ? 我 们 可 以 
信 助 Loop Invariant 的 概念 和 数学 归纳 法 来 理解 循环 结构 的 算法 ， 假如 某 个 判断 条 件 满足 以 下 三 
条 准则 ， 它 就 称 为 Loop Invariant: 


1. 第 一 次 执行 循环 体 之 前 该 判断 条 件 为 真 


2. 如 果 "“ 第 N-1 次 循环 之 后 (或 者 说 第 N 次 循环 之 前 ) 该 判断 条 件 为 真 " 这 个 前 提 可 以 成 立 ， 那 
么 就 有 办 法 证 明 第 N 次 循环 之 后 该 判断 条 件 仍 为 真 


3. 如 果 在 所 有 循环 结束 后 该 判断 条 件 为 真 ， 那 么 就 有 办 法 证 明 该 算法 正确 地 解决 了 问题 


只 要 我 们 找到 了 这 个 Loop Invariant, ， 就 可 以 证 明 一 个 循环 结构 的 算法 是 正确 的 。 上 面 插入 排序 
a roop Iivana E AE: 第 j 次 循环 之 前 ， 子 序列 a[0..j-1] 是 排 好 序 的 。 在 上 面 



































































































































































































































































































































































































































的 打印 结果 中 ， 我 把 子 序列 a[0..j-1] 加 粗 表 示 。 下 面 我 们 验证 一 下 Loop Invariant 的 三 条 准则 : 
一 次 执行 循环 之 前 ， 序列 a[0..j-1] 只 有 一 个 元 素 a[0]， 只 有 一 个 元 素 的 序列 显然 
是 排 好 序 的 。 









































2. 第 次 循环 之 前 ， 如 果子 序列 a[0.j-1] 是 排 好 序 的 "这 个 前 提成 立 ， 现在 要 把 key=a[j] 插 进 
去 ， 按 照 该 算法 的 步骤， 把 alj-1]、alj-2]、afj-3] 等 等 比 key 大 的 元 素 都 依次 往 后 移 一 个 ， 

下 到 找到 合适 的 位 置 给 Key 插入， 就 能 证 明 循环 结束 时 子 序 列 al0.j] 是 排 好 序 的 。 就 像 插 扑 
克 牌 一 样 ,，“ 手 中 已 有 的 牌 是 排 好 序 的 "这 个 前 提 很 重要 ， 如 果 没 有 这 个 前 提 ， 就 不 能 证 明 
再 揪 一 张 牌 之 后 也 是 排 好 序 的 。 


3. 当 循 环 结束 时 ，j=LEN ， 如 果 “ 子 序列 a[0..j-1] 是 排 好 序 的 ”这 个 前 提成 立 ， 那 就 是 
er E RERO TS 


可 见 ， 有 了 这 三 条 ， 就 可 以 用 数学 归纳 法 证 明 这 个 循环 是 正确 的 。 这 和 第 3 15 "EB 1H" HEB S UA 
程序 正确 性 的 下 想 是 一 致 的 ， 这 里 的 第 一 条 就 相当 于 递归 的 Base Case， 第 二 条 就 相当 于 递归 
的 递 推 关系 。 这 再 次 说 明了 递归 和 循环 是 等 价 的 。 
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解决 同一 个 问题 可 以 有 很 多 种 算法 ， 比 较 评价 算法 的 好 坏 ， 一 个 重要 的 标准 就 是 算法 的 时 间 复 
变 。 现 在 研究 一 下 插入 排序 算法 的 执行 时 间 ， 按 照 习惯 ， 输 入 长 度 LEN 以 下 用 n 表 示 。 假 设 循 
' 各 条 语句 的 执行 时 间 分 别 是 c1、c2、c3、c4、c5 这 样 五 个 常数 [20]. 
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! void insertion sort (void) 执行 时 间 
Ld 


aioe, She Je SN 
Oe (J = ip J < mme «39 4 
key = a[j]; e 

i a eg er c2 
: while (i >= 0 && a[i] > key) { 
easi] = alils c3 
: cg c4 
: a[i*l] = key c5 
i} 

















显然 外 层 for 循 环 执行 次 数 是 n-1 次 ， 假 设 内 层 的 while 循 环 执行 m 次 ， 则 总 的 执行 时 间 粗 略 估计 
是 (n-1)*(c1+c2+c5+m*(c3+c4)) 。 当 然 ， for 和 while 后 面 () 括 号 中 的 赋值 和 条 件 判 断 也 需要 时 
间 ， 而 我 没有 设 一 个 常数 来 表示 ， 这 不 影响 我 们 的 粗略 估计 。 


这 里 有 一 个 问题 ，m 不 是 个 常数 ， 也 不 取决 于 输入 长 度 n， 而 是 取决 于 具体 的 输入 数据 。 在 最 好 
情况 下 ， 数 组 a 的 原始 数据 已 经 排 好 序 了 ，while 循 环 一 次 也 不 执行 ， 总 的 执行 时 间 

是 (c1+c2+c5)*n-(c1+c2+c5) ， 可 以 表示 成 an+b 的 形式 ， 是 n 的 线性 函 数 (Linear Function) 。 
那么 在 在 最 坏 情 况 (Worst Case) 下 又 如 何 呢 ? 所 谓 最 坏 情 况 是 指数 组 a 的 原始 数据 正好 是 从 大 
到 小 排 好 序 的 ， 请 读者 想 一 想 为 什么 这 是 最 坏 情 况 ， 然 后 把 上 式 中 的 mm 替换 掉 算 一 下 执行 时 间 是 
多 少 。 


数组 a 的 原始 数据 属于 最 好 和 最 坏 情 况 都 比较 少见 ， 如 果 原 始 数 据 是 随机 的 ， 可 称 为 平均 情况 

(Average Case) 。 如 果 原 始 数据 是 随机 的 ， 那 么 每 次 循环 将 已 排序 的 子 序列 a[1..j- 杂 与 新 插入 
的 元 素 key 相 比较 ， 子 序列 中 平均 都 有 一 半 的 元 素 比 key 大 而 另 一 半 比 Key 小， 请 读者 把 上 式 中 
的 m 替 换 掉 算 一 下 执行 时 间 是 多 少 。 最 后 的 结论 是 : 在 最 坏 情况 和 平均 情况 下 ， 总 的 执行 时 间 都 
可 以 表示 成 an2+bn+c 的 形式 ， 是 n 的 二 次 函数 (Quadratic Function) 。 


在 分 析 算 法 的 时 间 复 杂 度 时 ， 我 们 更 关心 最 坏 情况 而 不 是 最 好 情况 ， 理 由 如 下 : 


1. 最 坏 情况 给 出 了 算法 执行 时 间 的 上 界 ， 我 们 可 以 确信 ， 无 论 给 什么 输入 ， 算 法 的 执行 时 间 
不 会 超过 这 个 上 界 ， 为 比较 和 分 析 提 供 了 便利 。 


2. 对 于 某 些 算法 ， 最 坏 情况 是 最 常 发 生 的 情况 ， 例 如 在 数据 库 中 查找 某 个 信息 的 算法 ， 最 坏 
情况 就 是 数据 库 中 根本 不 存在 该 信息 ， 都 找 遍 了 也 没有 ， 而 某 些 应 用 场合 经 常 要 查 
信息 在 数据 库 中 存在 不 存在 。 


3. 虽然 最 坏 情况 是 一 种 悲观 估计 ， 但 是 对 于 很 多 问题 ， 平 均 情况 和 最 坏 情况 的 时 间 复杂 度 差 
不 多 ， 比 如 插入 排序 这 个 例子 ， 平均 情 况 和 最 坏 情 况 的 时 间 复杂 度 都 是 输入 长 度 n 的 二 
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比较 两 个 多 项 式 ain+b1 和 aozn2+bozn+c2 的 值 (n 取 正 整 数 ) 可 以 得 出 结论 : n 的 最 高 次 指数 是 最 
主要 的 决定 因素 ， 常 数 项 、 低 次 震 项 和 系数 都 是 次 要 的 。 比 如 100n+1 和 n2+1， 虽 然后 者 的 系数 



























































小 ， 当 n 较 小 时 前 者 的 值 较 大 ， 但 是 当 n>100 时 ， 后 者 的 值 就 远 远 大 于 前 者 了 。 如 果 同 一 个 问题 
可 以 用 两 种 算法 解决 ， 其 中 一 种 算法 的 时 间 复 杂 度 为 线性 函数 ， 另 一 种 算法 的 时 间 复 杂 度 为 二 
次 函数 ， 当 问题 的 输入 长 度 n 足 够 大 时 ， 前 者 明显 优 于 后 者 。 因 此 我 们 可 以 用 一 种 更 粗略 的 方式 
表示 算法 的 时 间 复 杂 度 ， 把 系数 和 低 次 短 项 都 省 去 ， 线 性 函数 记 作 O(n)， 二 次 函数 记 作 O(n?)。 




































































































































































QO(g(n)) 表 示 和 g(n) 同 一 量 级 的 一 类 函数 ， 例 如 所 有 的 二 次 函数 f(n) 都 和 g(n)=n n2 属 于 同一 
都 可 以 用 On cr. 其 至 有 些 不 是 二 次 函数 的 也 和 n2 属于 同一 量 级 ， 例 如 2n2+3lgn。 
量 级 "这 个 概念 可 以 用 下 图 来 说 明 (该 图 出 自 [算法 导论 ]) : 





















































图 11.2. O-notation 
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f (n) = G(g(n)) 











1 
在 c1g9(n) 和 cog(n) 之 间 ， 就 说 f(n) 和 g(n) 是 同一 量 级 的 ，f(n) 就 可 以 用 O(g(n)) 来 表示 。 
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以 二 次 函数 为 例 ， 比 如 1/2n2-3n， 要 证 明 它 是 属于 6(n2) 这 个 集合 的 ， 我 们 必须 确 








量 级 ， 


“同一 


果 可 以 找到 两 个 正 的 常数 c1 和 ca ， 使 得 n 足 够 大 的 时 候 〈 也 就 是 nzno 的 时 候 ) f(n) 总 是 夹 


定 c1、cz 和 no ， 这 些 常 数 不 随 n 而 改变 ， 并 且 当 nzno 以 后 ，ci1n2<1/2n2-3n<co2n2 总 是 成 立 的 。 


为 此 我 们 从 不 等 式 的 每 一 边 都 除 以 ne ， 得 到 c1<1/2-3/nscz。 见 下 图 : 





图 11.3. 1/2-3/n 


1/2-3/ 








这 样 就 很 容易 看 出 来 ， 无 论 n 取 多 少 ， 该 函数 一 定 小 于 1/2， 因 此 co=1/2， 当 n=6 时 函数 值 

















为 0，n>6 时 该 函数 都 大 于 0， 可 以 取 no=7，c1=1/14， 这 样 当 nzno 时 都 有 1/2-3/n>c1。 通 过 这 个 























证 明 过 程 可 以 得 出 结论 ， 当 n 足 够 大 时 任何 an2+bn+c 都 夹 在 cin2 和 con2 之 间 ， 相 对 于 n2 项 来 
说 bn+c 的 影响 可 以 忽略 ，a 可 以 通过 选取 合适 的 c1、co 来 补偿 。 

















儿 种 常见 的 时 间 复 杂 度 函数 按 数 量 级 从 小 到 大 的 顺序 依次 

Æ: O(lgn)，e(sqrt(n))，e(n)，e(nlgn)，e(n*)，eO(n3)，eO(2")，eO(n!)。 其 中 ，Ign 通 常 表示 
以 10 为 底 n 的 对 数 ， 但 是 对 于 ©-notation 来 说 ，O(lgn) 和 O(logon) 并 无 区 别 ( 想 uin 
4) ， 在 算法 分 析 中 lgn 通 常 表 示 以 2 为 底 n 的 对 数 。 可 是 什么 算法 的 时 间 复 杂 度 里 会 出 现 Ign 呢 ? 
回顾 插入 排 序 的 时 间 复 杂 度 分 析 ， 无 非 是 循环 体 的 执行 时 间 乘 以 循环 次 数 ， 只 有 加 和 乘 运算 ， 
怎么 会 出 来 lg 呢 ? 下 一 市 归并 排序 的 时 间 复 杂 度 里 面 就 有 lg， 请 读者 留心 lg 运算 是 从 哪 出 来 的 。 


除了 9@-notation 之 外 ， 表 示 算 法 的 时 间 复 杂 度 常用 的 还 有 一 种 Big-O notation。 我 们 知道 插入 排 
序 在 最 坏 情况 和 平均 情况 下 时 间 复 杂 度 是 9(n2) , n)， 数 量 级 比 9(n2 当 要 小 ， 
Jb 总 结 起 来 在 各 种 情况 下 插入 排序 的 时 间 复杂 s 度 是 O(n?)。 晶 的 含义 和 "等于" 类似， 而 大 OO 的 
含义 和 "小 于 等 于 ”类似 。 

































































































































































































































































































































































[20] 受 计算 机 内 存 管理 机 制 的 影响 ， 指 令 的 执行 时 间 不 一 定 是 常数 ， 但 执行 时 间 的 上 界 (Upper 
Bound) 肯定 是 常数 ， 我 们 这 里 假设 语句 的 执行 时 间 是 常 数 只 是 一 个 粗略 估计 。 
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插入 排序 算法 采取 增 量 式 (Incremental) 的 策略 解决 问题 ， 每 次 ; RU 已 排 ) FRIT 





















































， 逐 渐 将 整个 数组 排序 完毕 ， 它 的 时 间 复 杂 度 是 B(n2)。 下 面 介绍 另 一 个 典型 

































































排序 算法 。 归 并 排序 的 步 又 如 下 : 

1. Divide: 把 长 度 为 n 的 输入 序列 分 成 两 个 长 度 为 mn2 的 子 序列 

2. Conquer: 对 这 两 个 子 序列 分 别 采用 归并 排序 。 

3. Combine: 将 两 个 排序 好 的 子 序列 合并 成 一 个 最 终 的 排序 序列 。 
在 描述 归并 排序 的 步骤 时 又 调用 了 归并 排序 本 号， 可 见 这 是 一 个 递归 的 过 程 。 










































































例 11.2. 归并 排序 





: #include <stdio.h> 


| define LEN 8 
aimi eme] = 4 S, 2, 4 T, lp Se Ze © be 


| void merge(int start, int mid, int end) 
: { 
f int nl = mid - start + 1; 
dione AA = ewel ml 

iye lere Deuil; zielne [v2] p 
imne lp ip ky 


: for (i = 0; i « nil; i++) /* left holds 
a stert mtd] se 
: left[i] = a[start+i]; 
ror (3 = Of 3 < mee 3) 7 righre leuius 
: a[mid*1..end] */ 

: right[j] = a[mid+1+j]; 


i = e Op 
ore (k = Siceucep a < ml Ce J < jap srk) d 
side (eel «€ ricimelgl) 4 
a[k] = left[i]; 
Paap 
} else { 
alki = sigme (| TT 
arare 
} 
} 
aie (a «€ job) /* left[] is not 


‘exhausted */ 
i for (; i < nl; itt) { 
a[k] = left[il; 
EEK 
} 
: side (G < i92) foe sede] ie nor 
: exhausted */ 
| for (; j < n2; +45) { 
alk] = right[j]; 


归并 排序 ， 它 采取 分 而 治之 (Divide-and-Conquer) 的 策略 ， 和 ont 优 于 


MA 
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| ) 
m 
| void sort(int start, int end) 
ET 
int mid; 
if (start < end) { 
mid = (start + end) / 2; 
printf("sort ($d-$d, $d-$d) $d $d Sd d 
Sa $d $d $dWMn", 
Siceiec, duel. mc ee 
a[0], a[1], a[2], a[3], a[4], 
el3l, eel al7i))- 
sort(start, mid); 
sort(mid + 1, end); 
merge(start, mid, end); 
printf ("merge ($d-$d, $d-$d) to $d $d 
Sa $d sd $d Sd Sd\n", 
| start, mid, mid+1, end, 
: a[0], a[l], a[2], a[3], a[4], 
alal al6], al7]); 
: } 
i 
| int main(void) 
: { 
sort(0, LEN-1); 
: return 0; 
iy 
执行 结果 是 : 
Some (O-3, 44-7) 5247 i sS 2 1$ 
Sow (Ql. 2-3) 5 2 4 7 i 3 2 6 
bees (0-90. 1—1) 572 4 7 X S 2 o 
Ine cu OPI SIDE OE RET 7 il 3 2 6 
Sioa (252. 3-3) 2 5 6 y i 3 2 6 
mengen (2-2. 3-3) wo 2 9 4 y l 92. 
merge 0-1, 2-3) to 2 4 5 y 4 9 2 6 
Sow (45. $9) 245 y il S2 SG 
Some (4-4, 5-5) 2 4 5 y à S2 
queue (d-4. 55) uo 2 4 5 7 4x S 2 
Sore (5-5. 7-7) 2 4 5 yat4 32S 
merge (5-5, 7-7) uo 2 4 8 7 1 3 2 6 
merce (4-5, $7) uuo 2 4 5 7 d 2 9 6 
merge (0-3, 4-7) tol 2 2.34 5 6 7 
sorti ZiBa[start..end] 352) | F9, ^1 9 alstart..mid]#la[mid+1..end], ， 对 这 两 个 子 
FETU BIE ISIN sorti GUERRA, Pci JH merge RACHEL FFI BIAS EAA ER, E 
于 两 个 子 序列 都 已 经 排 好 序 了 ， 合 并 的 过 程 很 简单 ， 每 次 循环 取 两 个 子 序列 中 最 小 的 元 素 进 行 
比较 ， 将 较 小 的 元 素 取出 放 到 最 终 多 的 排序 序列 中 ， 如 果 其 中 一 个 子 序 列 的 元 素 已 取 完 ， 就 把 另 
一 个 子 序列 剩 下 的 元 素 都 放 到 最 终 的 排序 序列 中 。 为 了 便于 理解 程序 ， 我 在 sort 函 数 开 头 和 结尾 
插 了 打印 语句， 可 以 看 出 调用 过 程 是 这 样 的 : 














图 11.4. H 














并 排序 调用 过 程 








-77 ${52471326 }->{12234567} 


- E *- = ~ 
"E oi Qe m TUN ^ 
P —« 一 -^ 一 ~ N 
^ S{5247}2{2457} 1 ^ S{1326}2{1236} * SDS MI) 
" / 
/ 1 | / £X by EN 
9218125). — I SIT UIN NM Pll3ye{13} | PERLER NMJ 
/N 0^ er nr AM IN o tg e Jul. AP 
\ stg S29 4M Sig} STW yM f S()F 5(34 \M,)s{2v S(6 , M 
i» v vv v — M v w ~/ v — 
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F sorte žo% JA val H ] 
楚 地 展现 归并 排序 的 过 程 ， 读 者 在 理解 递归 矣 





















































沿 虚 线 所 示 的 方向 调用 和 返回 。 由 

















CAR, Bree BARCA IA] Val FR AR 
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树 状 经 





























构 。 画 这 个 图 只 是 为 了 更 清 
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数 时 一 定 不 : 


:全 部 展开 来 看 ， 而 








Case 和 递 推 关系 来 理解 。 我 们 分 析 一 下 归 
































并 排序 的 时 间 复 杂 度 ， 以 
首先 分 析 merge 阴 数 的 时 间 复杂 度 。 在 merge 子 数 中 演示 了 C99 的 新 特性 一 一 可 变 长 数组 ， 当 然 


是 要 抓 住 Base 








分 析出 








[算法 导论 ]。 











也 可 以 避免 使 用 这 一 特性 ， 比 如 把 left 和 right 都 按 最 大 长 度 LEN 分 配 。 不 管用 哪 种 办 法 ， 定 义 数 





组 并 分 配 存 储 空间 的 语句 执行 时 间 可 以 看 作 


rm 


作 G@(1T)。 设 子 序 列 af[start..mid] 的 长 度 为 n{1 ， 子 





4e 











起 看 ， 每 走 





中 n=end-start+1。 


次 循环 就 会 在 最 终 的 排序 序列 
所 以 执行 时 间 也 是 B@(n)。 两 个 9(n) 再 加 上 若干 








数 ， 而 不 管 数组 有 多 长 ， 常 数 用 -notation 记 
谭 列 [mid+1..end] 的 长 度 为 n2，afstart..end] 的 总 
长 度 为 n=n1+n2， 则 前 两 个 for 循 环 的 执行 时 间 是 O(n1+n2)， 也 就 是 O(n)， 后 面 三 个 for 循 环 合 在 


























Al, 
H 














1 确定 一 个 元 素 ， 最 终 的 排序 序列 共有 n 个 元 素 ， 
数 项 ，merge 函 数 总 的 执行 时 间 仍 是 @(n)， 其 























然后 分 析 sort() 函 数 的 时 间 复 杂 度 ， 当 输入 长 度 n=1 ， 也 就 是 start=end 时 ，if 条 件 不 成 立 ， 执 行 时 


间 为 常数 O(1)， 当 输入 长 度 n>1 时 : 





总 的 执行 时 间 = 2 x 输入 长 度 为 n2 的 sort 函 数 执行 时 间 + merge P&C HVAT IN Te] O(n) 
设 输入 长 度 为 n 的 sort 函 数 执行 时 间 为 T(n)， 综 上 所 述 : 


e) ifn=1, 


l (n) = 2T(n/2)+ O(n) ifn>1. 











Fi 























E^ (Recurrence) 。 我 们 需 : 








这 是 一 个 递 # 
符合 一 定 
观 上 看 一 下 这 个 递 


我 们 取 c1 和 co 















































AL. ifn — 1, 
~ 2T(n/2)--cn ifn>1, 








这 样 计 算出 的 结果 


的 (c)) ， 然 后 再 把 T(m4) 进 一 步 展 开 ， 直 至 






































定 条 件 的 Recurrence 展 开 有 数学 公式 可 以 套 。 这 上 


HET 








BT(n) Ms Amina, 5 











BERT THD} 




















WAET(N) AY EX. FERMETRA 2T(n/44cn/2 (下 图 
I 最 后 全 部 变 成 T(1)=c 的 项 (下 图 中 的 (d)) : 














成 n 的 函数 。 其 实 











z 格 的 数学 证 明 ， 只 是 从 直 
公式 的 结果 。 当 n=1 时 可 以 设 T(1)=c1 ， 当 n>1 时 可 以 设 T(m)=2T(n/2)+con， 
! 较 大 的 一 个 设 为 c<， 把 原来 的 公式 改 为 : 

















Tin) cn en 






































有 — 
(d) Total: en lg n+ en 
把 图 (d) 中 所 有 的 项 加 起 来 就 是 总 的 执行 时 间 。 这 是 一 个 树 状 结构 ， 每 一 层 的 和 都 是 cn， 共 





























有 Ilgn+1 层 ， 因 此 总 的 执行 时 间 是 cnlgn+cn ， 相 比 nlgn 项 来 说 ，cn 项 可 以 忽略 ， 因 此 T(m 的 上 界 
是 O(nlgn)。 

如 果 先 前 取 c{ 和 cs 中 较 小 的 一 个 设 为 ce， 计 算出 的 结果 应 该 是 T(n) 的 下 界 ， 然 而 推导 过 程 一 样 ， 
结果 也 是 O(nlgn)。 既 然 T(n) 的 上 下 界 都 是 O(nlgn)， 显 然 T(n) 就 是 O(nlgn)。 

可 见 ， 归 并 排序 是 比 插入 排序 更 好 的 算法 ， 虽然 merge 函 数 的 步 轩 果 较 多 ， 引 入 了 较 大 的 常数 、 系 
数 和 低 次 项 ， 但 是 对 于 较 大 的 输入 长 度 n， 这 些 都 不 是 主要 因素 ， 归 并 排序 是 O(nlgn)， 插 入 排 


序 的 平均 情况 是 6(n2) ， 这 就 决定 了 归并 排序 是 更 快 的 算法 。 但 是 不 是 任何 情况 下 归并 排序 都 优 
于 插入 排序 呢 ” 哪些 情况 适用 插入 排序 而 不 适用 归并 排序 ” 留 给 读者 思考 。 


习题 
1、 为 了 便于 初学 者 理解 ， 本 节 的 merge 函 数 写 得 有 些 鹃 嗪 ， 你 能 想 出 哪些 办 法 将 它 化 简 ? 


2、 人 快速 排序 是 另外 一 种 采用 分 而 治之 策略 的 排序 算法 ， 平 均 情 况 下 时 间 复 杂 度 也 是 @(nlgn)， 
但 可 以 比 归并 排序 有 更 小 的 时 间 常 数 。 它 的 基本 思想 是 这 样 的 : 











































































































































































































































































































































































































ne pant Livon( mis stazi, Pob end) 














Mal[start..end] 中 选取 一 个 pivot 元 素 (比如 选 a[start] 为 pivot)， 
| 在 一 个 循环 中 移动 a[start . .end] 的 数据 ， 将 a[start. .end] 分 成 两 半 ， 
: 使 a[start. .mig-1] 比 bivot 元 素 小 , a[mid*1..end] lepivot seek, 而 a [mid] 就 
i 是 pivot 元 素 ; 
; return mid; 









































i} 


: void quicksort (int start, int end) 


int mid; 

if (end > start) { 
mid = partition(start, end); 
quicksort (start, mid-1); 
quicksort (mid-*1, end); 








in thsépartition KZ, SRBC SITS, TEEPE TH) BUS n] RE/INIISCER S RT A 
什么 快速 排序 在 平均 情况 下 时 间 复 杂 度 是 @(nlgn) ， 在 最 好 和 最 坏 情况 下 时 间 复 杂 度 又 是 什么 样 
的 ? 








Seite 





第 11 章 排序 与 查找 


5. ZXTETEHX 


有 些 查 找 问 题 可 以 用 O(n) 的 算法 来 解决 。 例 如 写 一 —— 函数 ， 从 任意 输入 字符 串 中 找 出 某 
个 字母 的 位 置 并 返回 这 个 位 置 ， 如 果 找 不 到 就 返回 







































































例 11.3. 线性 查找 





i #include <stdio.h> 
: char a[]="hello world"; 


i int indexof(char letter) 


Pd 
| sap 3L = Oe 
while (a[i] != '\O') { 
if (a[i] == letter) 
Tert als 
i++; 
} 


zerto =i 


i} 


| int main(void) 


d 


printf("£d $dWMn", indexof('o'), indexof('z')); 
return 0; 















































这 个 实现 是 最 直观 和 最 容易 想到 的 ， 但 它 是 不 是 最 快 的 算法 呢 ? 我 们 知道 插入 排序 也 比 归并 排 
序 更 容易 想到 ， 但 通常 不 如 归并 排序 快 。 那 么 现在 这 个 问题 一 一 给 定 一 个 随机 排列 的 序列 ， 找 
出 其 中 某 个 元 素 的 位 置 一 一 有 没有 比 O(n) 更 快 的 算法 ?比如 EO(lgn)? 请 读者 思考 一 下 。 


习题 


1、 实 现 一 个 算法 ， 在 一 组 随机 排列 的 数 中 找到 最 小 的 一 个 。 你 能 想到 的 最 直观 的 算 潜 一定 也 
是 O(n) 的 ， 有 没有 比 O(n) 更 快 的 算法 ? 


2、 在 一 组 随机 排列 的 数 中 找 出 第 三 小 的 ， 这 个 问题 比 上 一 个 稍 复杂 ， 你 能 不 能 想 出 O(n) 的 算 
法 ? 


3、 进 一 步 泛 化 ， 在 一 组 随机 排列 的 数 中 找 出 第 k 小 的 ， 这 个 元 素 称 为 k-th Order Statistic 。 能 想 
到 的 最 直观 的 算法 肯定 是 先 把 这 些 数 排 序 ， 然 后 取 第 k 个 ， 时 间 复 杂 度 和 排序 算法 相同 ， 可 以 
是 O(nlgn)。 这 个 问题 虽然 比 上 两 个 问题 复杂 ， 但 它 也 有 e(n) 的 算法 ， 将 第 4 Ts "IH Ld 
题 2 的 快速 排序 算法 稍 加 修改 就 可 以 解决 这 个 问题 : 



































































































































































































































































































































































































































| /* 从 start 到 eng 之 间 找 出 第 k 小 的 元 素 */ 


ne order statistic(int start, int end, int k) 


i { 
i 用 partition 函 数 把 序列 分 成 两 半 ， 中 间 的 pivet 元 素 是 序列 中 的 第 1 个 ; 
if (k == i) 


















































返回 找到 的 元 素 ; 
(k > i) 
从 后 半 部 分 找 出 第 ki 小 的 元 素 并 返回 ; 


else if 


从 前 半 部 分 找 出 第 k 小 的 元 素 并 返回 ; 





6. 折 半 查找 
第 11 章 排序 与 查找 



































如 果 不 是 从 一 组 随机 的 序列 里 查找 ， 而 是 从 一 组 排 好 序 的 序列 里 找 出 某 个 元 素 的 位 置 ， 则 可 以 
有 更 快 的 算法 : 












































例 11.4. 折 半 查找 


: #include <stdio.h> 








| #define LEN 8 
me ms = 


| int binarysearch(int number) 
: { 
: int mid, start = 0, end = LEN - 1; 


while (start <= end) { 
mid = (start + end) / 2; 
if (a[mid] < number) 
start = mid + 1; 
else if (a[mid] > number) 


ends — mid mik 
else 
return mid; 
} 
i return i; 
i 
| int main (void) 
i { 
printf ("%d\n", binarysearch (3) ); 
: return 0; 
e 












































由 于 这 个 序列 已 经 从 小 到 大 排 好 序 了 ， 每 次 取 中 间 的 元 素 和 竺 查找 的 元 素 比 较 ， 如 果 中 间 的 元 
素 比 待 查 拷 的 元 素 小 ， 就 说 明 “ 如 果 待 查找 的 元 素 存在 ， 一 定位 于 序列 的 后 半 部 分 *， 这 样 可 以 把 
搜索 范围 缩小 到 后 半 部 分 ， 然 后 再 次 使 用 这 种 算法 迭代 。 这 种 “每 次 将 搜索 范围 缩小 一 半 ” 的 思想 
称 为 折 半 查找 (Binary Search) 。 思 考 一 下 ， 这 个 算法 的 时 间 复 杂 度 怎么 表示 ? 


这 个 算法 的 思想 很 简单 ， 不 是 吗 ? 可 是 [编程 珠 丽 ] 上 说 作者 在 课堂 上 讲 完 这 个 算法 的 思想 然后 让 
学 生 写 程序 ， 有 90% 的 人 写 出 的 程序 中 有 各 种 各 样 的 Bug ， 读 者 不 信 的 话 可 以 不 看 书 自己 写 一 遍 
试 试 。 这 个 算法 容易 出 错 的 地 方 很 多 ， 比 如 mia = (start + end) / 2; 这 一 句 ， 在 数学 概念 上 
























































































































































































































































































































































iX Ria = (start + end) / 2 , WAstart = mid + 1; 和 ena = mia - 1;， 如 果 前 者 写 
WT start = mid; 或 后 者 写成 了 ena = mia; 那么 很 可 能 会 导致 死 循环 ( 想 一 想 为 A) o 
怎样 才能 尽 可 能 保证 程序 的 正确 性 呢 ? 在 第 2 市 “插入 排序 "我 们 讲 过 借助 Loop Invariant 检 验 循 


















































环 的 正确 性 ， lm FHS ex ema <a 它 的 Loop Invariant 可 以 这 样 描 
yk: 待 查找 的 元 素 number 如 果 存 在 于 数组 a 之 中 ， 那 么 一 定 存 在 于 a[start..end] 这 个 范围 之 
间 ， 换 和 铝 话 说 ， 在 这 个 范围 之 外 的 数组 a 的 元 素 一 定 不 存在 number 这 个 元 素 。 以 下 为 了 书写 
方便 ， 我 们 把 这 人 句 话 表示 成 mustbe (start, end, number) e. B] EA 边 看 算法 边 做 推理 : 
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: int binarysearch(int number) 


a 
















































































































































































































































































































































































































































































































































































































































































































































































































































































Ive Wulel eee = O, exe = Ina — ile 
| /* 假定 a 是 排 好 序 的 */ 
: /* mustbe (start, end, number), 对 为 a[start . .end] 就 是 整个 数 
: 组 a[0..LEN-1] */ 
: rus (start <= end) { 
| * mustbe(start, end, number), ， 因 为 一 开始 进入 循环 时 是 正确 的 ， 
| 次 循环 也 都 维 护 了 这 个 条 件 */ 
: mid = (start + end) / 2; 
if (a[mid] « number) 
/* 既然 a 是 排 好 序 的 ，a [start . .mid] 应 该 都 
: 比 number 小 ， 所 以 mustbe (mid+1, end, number) */ 
1 starti mannii; 
/* 维护 了 mustbe (start, end, number) */ 
else if (a[mid] > number) 
: /* 既然 a 是 排 好 序 的 ，a [mid. .end] 应 该 都 
: 比 number 大 ， 所 以 mustbe (start, mid-1, number) */ 
: end = mid - 1; 
/* 维护 了 mustbe (start, end, number) */ 
else 
/* a[mid] == number， 说 明 找到 了 */ 
return mid; 
} 
/* 
| * mustbe(start, end, number) 一 直 被 循环 维护 着 ， 到 这 里 应 该 仍然 成 
ve {falstart. .end] 范围 之 外 一 定 不 存在 number , 
: * 但 现在 a [start. .end] 是 空 序列 ， 在 这 个 范围 之 外 的 正 是 整个 数组 a ， 因 
| 此 整个 数组 a 中 都 不 存在 number 
1 */ 
: EE Ln ALP 
m 
注意 这 个 算法 有 一 个 非常 重要 的 前 提 一 一 a 是 排 好 序 的 ， 如 果 没 有 了 这 个 前 提 ,“ 如 果 a[lmid] < 
number, ， 则 a[start..mid] 应 该 都 比 humber 小 * 这 一 步 推 理 就 不 成 立 。 从 更 普遍 的 意义 上 说 ， 调 用 
者 (Caller) 和 被 调用 者 (或 者 叫 函 数 的 实现 者 ，Callee) 之 间 订 立 了 一 个 契约 (Contract) , 
在 调用 函数 之 前 ，Caller 需 要 对 Callee 尽 到 某 些 义务 ， 比 如 确保 a 是 排 好 序 的 ， 确 
呆 afstart .end] 都 是 有 效 的 数组 元 素 而 没有 访问 越界 ， 这 称 为 Precondition ， 然后 在 Callee 中 对 一 
些 |nvariant 进 行 维护 (Maintenance) ， 这 些 Invariant 保 证 as ae 
某 些 义 务 ， 比 如 确 呆 * 如 果 number 在 数组 a 存在 ， 一 定 能 找 出 来 并 返回 它 的 位 置 ， 如 
果 number 在 数组 a 中 不 存在 ， 一 定 能 返回 -1 ， 这 称 为 Postcondition 。 如 果 每 个 函数 的 文档 都 非 
常 清楚 地 记录 了 Precondition、Maintenance 和 Postcondition 是 什么 ， 那 么 每 个 函数 都 可 以 独立 
地 编写 和 测试 ， 整 个 系统 就 会 易于 维护 。 这 种 编程 思想 是 由 Eiffel 语 言 的 设计 者 Bertrand 
Meyer 提 出 来 的 ， 称 为 Design by Contract (DbC) 。 
测试 一 个 函数 是 否 正确 需要 把 Precondition、Maintenance 和 Postcondition 这 三 方面 都 测试 到 ， 
(mede 个 函数 ， 即 使 它 写 得 非常 正确 ， 既 维护 了 Invariant 也 保证 了 Postcondition , 
如 果 调 用 它 的 Galler 没 有 保证 Precondition， 最 后 的 结果 也 还 是 错 的。 我 们 编写 两 个 测试 用 
的 Predicate 子 数 ， 然 后 把 相关 的 测试 插入 到 pinarysearch 消 数 中 
例 11.5. 带 有 测试 代码 的 折 半 查找 


lude <stdio.h> 
lude <assert.h> 





: #define LEN 8 


ane aliwi = 1 i; 3y 3p 3p 4p 5p © T F 
ET 

Ff 

i int i, sorted = 1; 


fowm (a = ds a < ume abo) 
sorted = sorted && a[i-1] <= a[i]; 


1 


return sorted; 


| int mustbe(int start, int end, int number) 


: { 

i Tine Lp 
see (aL 
} 


a 


= (9g at «$ anise abuene) 4 


if (i >= start && i <= end) 


continue; 
if (a[i] == number) 
return 0; 


merece jhe 


i int binarysearch(int number) 


o 


assert (is_sorted()); 


while 


int mid, start = 0, end = LE 


(start <= end) { 


;: Maintenance */ 


} 


' assert (mustbe(start, 
MPOSEcCOOnditiono s 
i rawta =ils 


assert (mustbe (start, 


N = le 


/* Precondition */ 


end, number)); /* 


mid = (start + end) / 2; 


if (a[mid] < number) 


Sitz ads = wie a ilg 
else if (a[mid] > number) 
Giovel muc NT 


else 
return mid; 


printf ("%d\n", binarysearch ( 


b) 

| int main(void) 
at 

return 0; 
- 




















assert 是 头 文件 assert.h 中 的 一 个 安 EX, 执行 到 assert ( 




















假 ( 例 如 把 数组 的 排列 顺序 改 一 











果 is_ sorted ( Ape e 则 当 什 么 


end, number)); /* 


3) IE 


(is sorted( ) ) 这 人 句 时 ， 如 

















改 ) ， 则 报错 退出 程序 : 














事 都 没 发 生 过 ， 继 续 往 下 执行 ， 105 








Kis sorted Q 返回 值 为 











: main: main.c:33: binarysearch: Assertion 
: Aborted 


^is sorted()' failed. 
































在 代码 中 适当 的 地 方 使 用 断言 (Assertion) 可 以 有 效 地 帮助 我 们 测试 程序 。 也 说 



































问 : binarysearch 这 个 函数 我 们 
数 又 用 什么 来 测试 呢 ” 在 实际 工作 中 我 们 要 测试 的 代码 多 








专 为 测试 目的 编写 的 测试 函数 往往 都 比较 人 简单， 比较 容易 























法 测试 ， 这 样 就 a 测试 复杂 系统 的 问题 转化 为 测试 一 些 简 








用 两 个 测试 函数 is_sorted 























FAAS 


和 mustbe 来 测试 ， 那 么 这 两 个 测试 函 




































































名 不 会 像 inarysearch 这 人 么 简单 ， 而 我 们 




















呆 证 正确 性 ， 也 可 以 用 
































测试 代码 只 在 开发 和 调试 时 有 月 












































Debug) ， 就 可 以 人 禁用 assert. 
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H, 




















简单 的 测试 函数 的 问题 。 











些 简单 的 广 























如 果 已 经 发 布 (Release) 的 软件 还 要 运行 这 些 测试 代码 就 会 
严重 影响 性 能 了 ， 所 以 C 语 言 规定 ， 如 果 在 包含 sssert.h 之 前 定义 一 个 NDEBUG 窑 


(表示 No 




















! 的 assert 宏 定义 ， 代码 





assert MATE f E 




















HT: 


: #define NDEBUG 
i #include <stdio.h> 


i #include <assert.h> 
































还 有 男 一 种 办 法 ， 不 必修 改 源 文件 ， 直 接 在 编译 时 加 上 选项 -DNDEBUG ， 相 当 于 在 文件 开头 定 
义 NDEBUG 宏 。 有 关 宏 定义 和 预 处 理 以 后 会 更 详细 解释 。 


习题 












































1、 编 写 一 个 函数 求 平方 根 。 相 当 于 x2-y=0 ， 正 实数 y 是 已 知 的 ， 求 方程 的 根 。x 在 从 0 到 y 之 间 必 
定 有 一 个 取 值 是 方程 的 根 ， x 比 根 小 的 时 候 方 和 的 左边 都 小 于 0; x 比 根 大 的 时 候 方程 的 左边 都 大 
于 0， 可 以 采用 折 半 查找 的 思想 。 汶 由 于 计算 机 浮 点 运算 的 精度 有 限 ， 只 能 求 一 个 近似 解 ， 
om ecy er ETER. A PIX TE ERE Di? XA 
次 数 的 多 少 由 什么 因素 决定 ? 


折 半 查找 的 思想 有 非常 广泛 的 应 用 ， 不 仅 限 于 从 一 组 排 好 序 的 元 素 中 找 出 某 个 元 素 的 位 置 ， 还 
可 以 解决 很 多 类 似 的 问题 。 [编程 珠 现 ] 对 于 折 半 查找 的 各 种 应 用 和 优化 技巧 有 非常 详 细 的 介绍 。 


下 一 页 
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1. 数据 结构 的 概念 


数据 结构 (Data Structure) 是 数据 的 组 织 方 式 。 程 序 中 用 到 的 数据 都 不 是 孤立 的 ， 而 是 有 相互 
联系 的 ， 根 据 访 问 数据 的 需求 不 同 ， 同 样 的 数据 可 以 有 多 种 不 同 的 组 织 方式 。 以 前 学 过 的 复合 
类 型 也 可 以 看 作 数据 的 组 织 方式 ， 把 同一 类 型 的 数据 组 织 成 数组 ， 或 者 把 描述 同一 对 象 的 各 成 
员 组 织 成 结构 体 。 数 据 的 组 织 方式 包含 了 存储 方式 和 访问 方式 这 两 层 意思 ， 二 者 是 紧密 联系 
的 。 例 如 ， 数 组 的 各 元 素 是 一 个 挨 一 个 存储 的 ， 并 且 每 个 元 素 的 大 小 相同 ， 因 此 数组 可 以 提供 
按 下 标 访问 的 方式 ， 结 构 体 的 各 成 员 也 是 一 个 挨 一 个 存储 的 ， 但 是 每 个 成 员 的 大 小 不 同 ， 所 以 
只 能 用 .运算 符 加 成 员 名 来 访问 ， 而 不 能 按 下 标 访问 。 


本 革 主 要 介绍 栈 和 队列 这 两 种 数据 结构 以 及 它们 的 应 用 。 从 本 革 的 应 用 实例 可 以 看 出 ， 一 个 问 



































题 中 数据 的 存储 方式 和 访问 方式 就 决定 了 解决 问题 可 以 采用 什么 样 的 算法 ， 要 设计 一 个 算法 就 
要 同时 设计 相应 的 数据 结构 来 支持 这 种 算法 。 所 以 Pascal 语 言 的 设计 者 Niklaus Wirth 提 出 算 
法 + 数据 结构 = 程序 ( 详 见 [算法 + 数据 结构 = 程序 ]) 。 





Eon 


2. 堆栈 











在 第 3 t “递归 "中 我 们 已 经 对 栈 这 种 数据 结构 有 了 初步 认识 。 堆 栈 是 一 组 元 素 的 集合 ， 类 似 于 
数组 ， 不 同 之 处 在 于 ， 数 组 可 以 按 下 标 随 机 访问 ， 这 次 访问 al5] 下 次 可 以 访问 al1]， 但 是 堆栈 的 


2. 堆栈 
第 12 章 栈 与 队列 T= 



















































































访问 规则 被 限 
弹出 ) 则 取出 当前 栈 顶 的 元 素 ， 也 就 是 将， 只 能 访问 栈 顶 元 素 而 不 能 访问 栈 


























制 为 Push 和 Pop 两 种 操作 ，Push (入 栈 或 压 栈 ) 向 栈 顶 添加 元 素 ，Pop (出 栈 或 
其 它 元 素 。 如 果 










































































所 有 元 素 的 类 型 相同 ， 堆 栈 的 存储 也 可 以 用 数组 来 实现 ,访问 操 作 可 以 通过 函数 接口 提供 。 看 


以 下 的 示例 程序 。 












































例 12.1. 用 堆栈 实现 倒序 打印 























: #include <stdio.h> 


‘char stack[512]; 
iti ec O; 


i void push(char c) 
: { 
stack[top] = c; 
: toptt; 
- 


| char pop(void) 
i { 


top--; 
i return stack[top]; 
b) 
| int is empty (void) 
:( 
: return top -- 0; 
my 
| int main (void) 
B 
push('a'); 
| oo (9) E 
i push('c'); 
while(!is_empty() ) 
putchar (pop ()); 
putchar ("An") e 
| return 0; 
P 





运行 结果 是 cba。 运 行 过 程 图 示 如 下 : 




















图 12.1. 用 堆栈 实现 倒序 打印 














oh ot AS dk ut 


























数组 stack 是 推 栈 的 存储 空间 ，top 用 作 数 组 stack 的 索引 ， 注 意 top 总 是 指向 栈 顶 元 素 的 下 一 个 




















元 素 ， 可 以 把 它 称 为 指针 (Pointer) 。 在 第 2 5 "idi "中 介绍 了 Loop Invariant BE, n 
以 用 它 检 验 循环 的 正确 性 ， 这 里 的 *top 总 是 指向 栈 顶 元 素 的 下 一 个 元 素 " 其 实 也 是 一 

































































种 Invariant， 可 以 检验 Push 和 Pop 操 作 是 否 正 确实 现 了 ， 这 种 Invariant 表 示 一 个 数据 结构 的 状态 




















总 是 维持 某 个 条 件 ， 在 DbC 中 称 为 Class Invariant。Pop 操 作 的 语义 是 取出 栈 顶 元 素 ， 但 上 例 的 














> 














实现 其 实 并 没有 清除 原来 的 栈 顶 元 素 ， 只 是 把 top 指 针 移 动 了 一 下 ， 原 来 的 栈 顶 元 素 仍 然 存在 那 









































HT 


CA 





= 











已 。 这 就 足够 了 ， 因 为 此 后 通过 Push 和 Pop 操 作 不 可 能 再 访问 到 已 经 取出 的 元 素 了 ， 下 
次 Push 操 作 就 会 覆盖 它 。putchar 函 数 的 作用 是 把 一 个 字符 打印 到 屏幕 上 ， 和 printf 的 %c 作 用 
目 同 。 布 尔 函 数 is_empty 的 作用 是 防止 Pop 操 作 访问 越 界 。 这 里 我 们 把 栈 的 空间 取得 足够 大 







































































(512 个 了 





早出 来 ， 


LX) ， 其 实 严 格 来 说 Push 操 作 也 应 该 检查 是 否 越过 上 界 。 


















































在 main 哨 数 中 ， 入 栈 的 顺序 是 'a'、'b'、'c'， 而 出 栈 打印 的 顺序 却 是 'c'"、'b'、'a'， 最 后 入 栈 的 'c' 最 











因此 堆栈 这 种 数据 结构 的 特点 可 以 概括 为 LIFO (Last In First Out， 后 进 先 出 ) 。 我 们 























个 递归 函数 来 倒序 打印 ， 这 是 利用 前 数 调 用 的 栈 帧 实现 后 进 先 出 的 : 





也 可 以 写 


例 








12.2. 用 递归 实现 倒序 打印 





; #include <stdio.h> 
i #define LEN 3 


| char lobe (GN la vey, Wot, Vet je 
| void print backward(int pos) 


if (pos == LEN) 
return; 
print backward (pos+1); 
: putchar (buf[pos]); 
- 


| int main (void) 

i { 

print backward(0); 
Boeelan (7 Nia V) p 


return 0; 





也 许 你 会 将 ， 又 是 堆栈 又 是 递归 的 ， 倒 序 打 印 一 个 数组 犯 得 着 这 么 大 动 干戈 吗 ” 写 一 个 简单 的 
循环 不 就 行 了 : 


| sor (Ce TEN i >= 0p S 
: putchar (buf[il); 





对 于 数组 来 说 确实 没 必 要 搞 这 么 复杂 ， 但 对 于 某 些 数据 结构 就 没 这 么 简单 了 ， 下 一 市 你 就 会 看 
到 这 种 思想 的 实际 应 用 了 。 


3. 深度 优先 搜索 
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3. 深度 优先 搜索 


现在 我 们 用 堆栈 解决 一 个 有 意思 的 问题 ， 定 义 一 个 二 维 数组 : 































































































它 表示 一 个 迷宫 ， 其 中 的 1 表示 墙壁 ，0 表 示 可 以 走 的 路 ， 只 能 横着 走 或 竖 着 走 ， 不 能 斜 着 走 ， 
要 求 编 程序 找 出 从 左上 角 到 右 下 角 的 路 线 。 程 序 如 下 : 













































































例 12.3. 用 深度 优先 搜索 解 迷 宫 问 题 


: #include <stdio.h> 





: #define MAX ROW 5 
: #define MAX COL 5 


| struct Dorme [| auge mow, @@lp |} Sirack(SiL2] 7 
: int top = (Up 


: void push (struct point p) 


Pd 
i stack[top] = p; 
toptt+; 
a 
: struct point pop (void) 
ET 
: BoB 
! return stack[top]; 
D 
‘int is_empty (void) 
E 
return Cop == Op 
p 
: int maze[MAX ROW] [MAX COL] = { 
: 0; di, O, O, O, 
OQ, i, QOL, i, O, 
OF OF OF 0, OF 
@, i, i, it, (Q9 
Qo @, OW, I, (Q9 


ih; 


i void print_maze (void) 
: { 
: aime al, jig 
for (i = 0; i < MAX ROW; i++) { 
for (j = 0; j < MAX COL; j++) 
printf("$d ", maze[i][j]); 
pueenan ((U Ng V) e 


printf("*********WMp"); 





o 















































! struct point predecessor[MAX ROW][MAX COL] = { 
iod, , db cd , (iby d ins dl Sal oy deals 
: 13], 
(egal) a tek, cdi jr odio eil jer eed lb dicil 
b dL 
| (eg =a talk, SL a (algal (edi Ibe Aad li 
i 1l}h, 
udo SL a (Hy 4j (=p a= {=p = i {ap = 
:1}h, 
duc dp 1] (od =i dip d jig (apa eg db = 
m 
bx 
: void veale (be ow me Go ornvor oun jouer) 
i struct point visit point = { row, col }; 
maze[row] [col] = 2; 
predecessor[row] [col] = pre; 
: push(visit point); 
b) 
eser main (void) 
i { 
SECU joxgabsw. j9 = 4 O, © Ie 
maze[p.row] [p.col] = 2; 
push (p) ; 
while (!is empty()) ( 
: p = pop(); 
if (p.row == MAX ROW - 1 /* goal */ 
| && p.col == MAX COL - 1) 
break; 
i if (p.col+l < MAX COL /* right */ 
| && maze[p.row] [p.col+1] == 0) 
: visit(p.row, p.colt+l, p); 
if (p.row*l < MAX ROW /* down */ 
i && maze[p.row+1][p.col] == 0) 
: visit (p.rowtl, p.col, p); 
if (p.col-1 >= 0 /* left */ 
: && maze[p.row] [p.col-1] == 0) 
i viste (o 0w eo 9)p 
| if (p.row-1 >= 0 /* up */ 
: && maze[p.row-1][p.col] == 0) 
visit(p.row-1, p.col, p); 
print maze(); 
' } 
: if (p.row == MAX ROW - 1 && p.col == MAX COL - 
EOR 
: Siena (UY (Sci, xe we. osx iach) E 
: while (predecessor[p.row] [p.col].row != 
EE 
p = predecessor[p.row][p.col]; 
: jo: iss (CCl Sach) Vial, To em 
: p.col); 
| } 
} else 
prime ER NG 本 Data 有 
| return 0; 
:] 
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这 次 堆栈 里 的 元 素 是 结构 体 类 型 的 ， 用 来 表示 迷宫 中 一 个 点 的 x 和 y 座 标 。 我 们 用 
结构 保存 走 迷 富 的 路 线 ， 每 个 走 过 的 点 都 有 一 个 前 趋 (Predecessor) BIA, REA 
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前 点 的 ， 比 如 predecessorf4][4] 是 周 
始 predecessor 的 各 元 素 初 始 化 为 无 效 座 标 (-1, -1)。 






































FE 标 为 (3, 4) 的 点 ， 














在 迷宫 


就 表示 从 (3, 4) 走 到 了 (4, 4), 





























探索 路 线 的 同时 就 把 路 线 保 存 


一 开 





一 个 新 的 数据 
b 儿 走 到 



































终点 时 就 






























































在 predecessor 数 组 中 ， 已 经 走 过 的 点 在 maze 数 组 中 记 为 2 防止 重复 走 ， 最 后 找到 儿 
据 predecessor 数 组 保存 的 路 线 从 终点 打印 到 起 点 。 为 了 帮助 理解 ， 我 把 这 个 算法 
如 下 : 
°° 
: while ( 栈 非 空 ) { 
l 从 栈 顶 弹出 一 个 点 P; 
if (p 这 个 点 是 终点 ) 
: break; 
| 否则 沿 右 、 下 、 左 、 上 四 个 方 癌 探 索 相 邻 的 点 ，if£ (和 P 相 邻 的 点 有 路 可 走 ， 并 
; 有 旦 还 没 走 过 ) 
: 将 相 邻 的 点 标记 为 已 走 过 并 压 栈 ， 它 的 前 趋 就 是 p 点 ; 
|i (p 点 是 终点 ， 
打印 p 点 的 座 标 ; 
while (PsA BIE) { 
pA 点 =p 点 的 前 趋 ; 
打 印 p 点 的 座 标 ; 
} 


; } else 


没有 路 线 可 以 到 达 终 点 ; 














我 在 while 循 环 的 末 





























出 这 种 搜索 算法 

















化 的 过 程 如 下 图 所 示 。 





民 插 了 打印 语句 ， 每 探索 一 
的 特点 : 每 次 取 一 个 相 
个 相 邻 的 点 再 走 下 去 。j 








邻 的 点 走 下 


步 都 打印 出 当前 标记 了 哪些 点 ， 

















N 





探索 迷 


直 走 到 无 路 可 走 了 再 退回 来 ， 
这 称 为 深度 优先 搜索 (DFS, Depth First Search) 。 


从 打印 结果 
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法 改写 成 伪 代 全 
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图 12.2. 深度 优先 搜索 
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图 中 各 点 的 编号 反映 出 探索 的 顺序 ， 堆栈 中 的 数字 就 是 图 中 点 的 编号 ， 可 见 正 是 因为 堆栈 后 进 
先 出 的 性 质 使 这 个 算法 具有 了 深度 优先 的 特点 。 如 果 在 探索 问题 的 解 时 走 进 了 死胡同 ， 则 需要 
退回 来 从 男 一 条 路 继续 探索 ， 这 种 思想 称 为 回溯 (Backtrack) ， 一 个 典型 的 例子 是 很 多 编程 书 
上 都 会 讲 的 八 皇 后 问题 。 


最 后 我 们 打印 终点 的 座 标 并 通过 predecessor 数 据 结构 找到 它 的 前 趋 ， 这 样 顺藤摸瓜 一 直 打 纯 到 
起 点 。 那 么 能 不 能 从 起 点 到 终点 正 向 打印 路 线 呢 ?在 上 一 节 我 们 看 到 ， 如 果 是 在 一 个 循环 里 打 
印 数组 ， 既 可 以 正 向 打印 也 可 以 反 向 打印 ， 因 为 数组 这 种 数据 结构 是 支持 随机 访问 的 ， 当 然 也 
支持 顺序 访问 ， 并 且 既 可 以 是 正 向 的 也 可 以 是 反 向 的 。 但 现在 predecessor 这 种 数据 结构 的 每 个 
元 素 只 知道 它 的 前 趋 是 谁 ， 而 不 知道 它 的 后 继 (Successor) 是 谁 ， 所 以 在 循环 里 只 能 反问 打 
印 。 由 此 可 见 ， 有 什么 样 的 数据 结构 就 决定 了 可 以 用 什么 样 的 算法 。 那 么 ， 为 什么 不 再 建 一 
个 successor 数 组 来 保存 每 个 点 的 后 继 呢 ?虽然 每 个 点 的 前 趋 只 有 一 个 ， 后 继 却 不 止 一 个 ， 

从 DFS 算 法 的 过 程 可 以 看 出 ， 如 果 每 次 在 保存 前 趋 的 同时 也 保存 后 继 ， 后 继 不 一 定 会 指向 正确 
的 路 线 ， 请 读者 想 一 想 为 什么 。 由 此 可 见 ， 有 什么 样 的 信 法 就 决定 了 可 以 用 什么 样 的 数据 结 
构 。 设 计算 法 和 设计 数据 结构 这 两 件 工作 是 紧 密 联 系 的 。 


习题 
1、 修 改 本 市 的 程序 ， 最 后 从 起 点 到 终点 正 向 打印 路 线 。 你 能 想 出 几 种 办 法 ? 


2、 本 市 程序 中 predecessor 这 个 数据 结构 占用 的 存储 空间 太 多 了 ， 可 以 改变 它 的 存储 方式 以 节 
省 空间 ， 想 一 想 该 怎么 做 。 


3、 上 一 节 我 们 实现 了 一 个 基于 堆栈 的 程序 ， 然 后 用 递归 改写 了 它 ， 用 函数 调用 的 栈 帧 实现 同样 
的 功能 。 本 节 的 DSF 算 法 是 基于 堆栈 的 ， 请 把 它 改 写成 递归 的 程序 。 改 写成 递归 程序 是 可 以 避 
免 使 用 predecessor 数据 结构 的 ， 想 想 该 怎么 做 。 
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4. 队列 与 广度 优先 搜索 
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第 12 章 栈 与 队列 
4. 队列 与 广度 优先 搜索 


队列 也 是 一 组 元 素 的 集合 ， 也 提供 两 种 基本 操作 : Enqueue (ABA) 将 元 素 添加 到 队 

€, Dequeue (出 队 ) 从 队 头 取出 元 素 并 和 返回。 就 像 排队 买 票 一 样 ， 先 来 先 服务 ， 先 入 队 的 人 
也 是 先 出 队 的 ， 这 种 方式 称 为 FIFO (First In First Out， 先 进 先 出 ) ， 有 时 候 队 列 本 身 也 被 称 
为 FIFO 。 


下面 我 们 用 队列 解决 迷宫 问题 。 程 序 如 下 : 





















































例 12.4. 用 广度 优先 搜索 解 迷宫 问题 


: #include <stdio.h> 








i #define MAX ROW 5 
: #define MAX COL > 


: struct point { int row, col, predecessor; } 
: queue[512]; 
Ive head = 0, tail = 0; 


| void enqueue (struct point p) 


: { 
| queue[tail] = p; 
i paaki 
i 
| struct point dequeue (void) 
: { 
: head++; 
: return queue [head-1]; 
- 
| int is empty (void) 
: { 
return head -- tail; 
pd 
i int maze[MAX ROW] [MAX COL] = ( 
i Q5 i, ©, OU. ©, 
Q5 i, ©, i, ©, 
O, O, 0; (0. O, 
On al, ibe ibe Oy, 
0, 0, 0, 1, O, 


bp 


i void print maze (void) 





E 
: ioe al, gg 
for (i = 0; i < MAX ROW; i++) { 
for (j = 07 j < MAX COL; j++) 
printf("$d ", maze[i][j]); 
put chars (ao IV 
} 
' Digna (AA AA ia) 
A 


| void visit(int row, int col) 
E 


Struct point visit point - ( row, col, head-1 


ae 
i maze[row][col] = 2; 
enqueue(visit point); 


iy 














by sas main (void) 
: { 
i HEU jOoime jo = 4 O, QU, =i he 
maze[p.row][p.col] = 2; 
enqueue (p); 
while (!is_empty()) { 
p = dequeue () ; 
if (p.row == MAX ROW - 1 /* goal */ 
&& p.col == MAX COL - 1) 
break; 
if (p.col+1 < MAX COL fe Seales sy 
&& maze[p.row][p.col-*1] == 0) 
visit (p.row, p.col+l); 
if (p.row+l < MAX ROW /* down */ 
&& maze[p.rowtl][p.col] == 0) 
vienne Gon T9oCX9L)- P 
if (p.col-1 >= 0 /* left */ 
&& maze[p.row] [p.col-1] == 0) 
Ss Gdo LO soe eu e 
if (p.row-1 >= 0 ex hoy EA 
&& maze[p.row-1][p.col] == 0) 
vaeane (jo ONL, D COLE 
print_maze(); 
} 
if (p.row == MAX ROW - 1 && p.col == MAX COL - 
P q 
: Sr (CU (Sel, Gel) Well osx Do COLE 
while (p.predecessor != -1) { 
p = queue[p.predecessor]; 
| Da (CCl, Sach) wer. Io Om 
| vO) 
| } 
: ) else 
printf("No path! n"); 
return 0; 
- 




















吉 果 如 下 
t2 i000 
T2100 
OOODO 
eles TED 
OO TO 
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2 0000 
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i21010 
Lr 2000 
EO UNS TI 
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* * * * * * * * * * * * * 

Ox 1HN TAO x Het O x 14 AN X 140 AN X | 04 ON 04 OV x 104 0 CON X LANAN X 0 eH CN 0H ON x 14 CN 03 CN X e c ON eH CN 140 CON X LAIN CON X 
* * * * * * * * * * * * * 

DEANNANNKANNANANN KANNNNN KNANNNN KNANNNN Ce CXL CL CL NNNN NK CNL ONE ONE CNL NK CN. ON. ONE ai K CONL ONE ONE ONE OCNL COL. CON ON CL CL CL. NNN NAN XK 


DEM 
: (3, 4) 
(27 4) 
|: (2, 3) 
| (2, 2) 
| (2 1) 
| (2; 0) 
E (iL; 0) 
(052 ©) 
































i AE 站 用 predecessor 数 组 表示 每 个 点 的 前 
a ERER MT SIRE, S TER. I A 加 一 个 成 员 表 示 前 趋 : 










































































Mesue point ( int row, col, predecessor; ) queue[512]; 
"dpntauesdocc0 Eod eu 








变量 head、tail 就 像 前 两 节 用 来 表示 栈 顶 的 top 一 样 ， 是 queue 数 组 的 索引 或 者 叫 指针 ， 分 别 指向 
队 头 和 队 尾 。 每 个 点 的 predecessor 成 员 也 是 一 个 指针 ， 指 向 它 的 前 趋 在 queue 数 组 中 的 位 置 。 
如 下 图 所 示 : 

































































图 12.3. 广度 优先 搜索 的 队列 数据 结构 









































将 起 点 标记 为 已 走 过 并 入 队 ) 0000 
: while (队列 非 空 ) ( 
l 出 队 一 








































































































: TAD: 
if (p 这 个 点 是 终点 ) 
| break; 
20 TUWA FB. Ze. EVUD TITRA TE SBI, if (和 Pp 相 邻 的 点 有 路 可 走 ， 并 
i Baie) 
将 相 邻 的 点 标记 为 已 走 过 并 入 队 ， 它 的 前 趋 就 是 刚 出 队 的 P 点 ; 
lir PARAR) 

HT HD As M; 

while (p 点 有 前 趋 ) ( 

p 点 =p 点 的 前 趋 ， 




















打印 p 点 的 座 标 ， 





} 





Ge 
没有 路 线 可 以 到 达 终 点 ; 


























从 打印 的 搜索 过 程 可 以 看 出 ， 这 个 算法 的 特点 是 沿 各 个 方向 同时 展开 搜索 ， 每 个 可 以 走 通 的 方 
问 轮 流 往 前 走 一 步 ， 这 称 为 广度 优先 搜索 (BFS Breadth First Search) o RRENA 
化 的 过 程 如 下 图 所 示 。 
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图 12.4. 广度 优先 搜索 
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广度 优先 是 一 种 步步为营 的 策略 ， 每 次 都 从 各 个 方向 探索 一 步 ， 将 前 线 推进 一 步 ， 图 中 的 虚线 
就 表示 这 个 前 线 ， 队 列 中 的 元 素 总 是 由 前 线 的 点 组 成 的 ， 可 见 正 是 因为 队列 先进 先 出 的 性 质 使 
这 个 算法 具有 了 广度 优先 的 特点 。 广 度 优先 搜索 还 有 一 个 特点 是 可 以 找到 从 起 点 到 终点 的 最 短 
路 径 ， 而 深度 优先 搜索 找到 的 不 一 定 是 最 短路 径 ， 比 较 本 节 和 上 一 节 程 序 的 运行 结果 可 以 看 出 
这 一 把， 想 一 想 为 什么 。 

































































习题 
、 本 市 的 例子 Eee Oe TUR MEET MIAH, AERA ES 12.3 "Hj 
X "不 能 采用 这 种 方法 表示 前 趋 ? 


、 E “用 堆栈 有 | 印 ” 时 我 们 说 “top 总 是 指向 栈 顶 元 素 的 下 一 个 元 素 ” 是 堆栈 
操作 的 Class Ia 那么 本 节 实 现 的 队列 操作 的 Invariant 应 该 怎么 描述 ? 





























































































3. 深度 优先 搜索 5. 环形 队列 


5. 环形 队列 
加 se 第 12 章 栈 与 队列 下 一 页 


5. 环形 队列 





EXE ECT ABA. 


Edi 深 [RB BAT RE ERU P s [ 

列 操 作 可 以 发 现 ， Bu 针 在 Push 时 增 大 而 在 Pop 时 减 小 ， p x 间 是 可 以 重复 利用 的 ， 
而 队列 的 head、tail 指 针 都 在 一 直 增 大 ， 虽 然 前 面 的 元 素 已 经 出 队 了 ， 但 它 所 占 的 存储 空间 却 不 
能 重复 利用 ， 这 样 对 存储 空间 的 利用 效率 很 低 ， 在 问题 的 规模 较 大 时 (比如 100x100 的 迷宫 ) 
需要 非常 大 的 队列 空间 。 为 了 解决 这 个 问题 ， 我 们 介绍 一 种 新 的 数据 结构 一 一 环形 队列 
(Circular Queue) 。 把 queue 数 组 想像 成 一 个 圈 ，head 和 tail 指 针 仍然 是 一 直 增 大 的 ， 当 指 到 
数组 末尾 时 就 自动 回 到 数组 开头 ， 就 像 两 个 人 围 着 操场 赛跑 ， 沿 着 它们 跑 的 方向 看 ， 
从 head 到 tail 之 间 是 队列 的 有 效 元 素 ， 从 tail 到 head 之 间 是 空 的 存储 位 置 ，head 追 Ftail 就 表示 队 
列 空 了 ，tail 妃 上 head 就 表示 队列 的 存储 空间 满 了 。 如 下 图 所 示 : 


































































































































































































图 12.5. 环形 队列 
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习题 
1、 将 例 12.4 “ L 和 迷宫 问题 " 改 用 环形 队列 实现 。 然 后 回答 
。 运行 原来 的 程序 要 求 queue 数 组 至 少 有 多 长 ? 不 用 跟踪 程 
吗 ? 
© 改 为 环形 队列 之 后 





旦 序 的 运行 过 和 
i 求 queue 数 组 至 少 有 多 长 ? 


T, UR 








第 13 章 本 阶段 总 结 





善于 学 习 的 人 都 应 该 善于 总 结 。 本 书 的 编排 顺序 充分 考虑 到 知识 的 前 后 依赖 关系 ， 保 证 在 讲解 
每 个 新 知识 点 的 时 候 都 只 用 到 前 面 章 节 讲 过 的 知识 ， 但 正 因 为 如 此 ， 很 多 相互 关联 的 知识 点 被 
拆散 到 多 个 章节 中 了 。 我 们 一 章 一 章 地 纵向 学 习 过 来 之 后 ， 应 该 理 出 几 个 横 切 面 ， 把 拆散 到 各 
章节 中 的 知识 点 串 起 来 。 


1. C 语 言 基本 语法 
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:5 源 代码 文件 可 以 包含 : 
#include < 头 文件 > 
#define 安 定义 
类 型 定义 (如 struct 和 enum) 

全 局 变量 定义 和 初始 化 
函数 定义 (AAT maine) 



















































































型 组 成 























-函数 接口 定义 ， 由 函数 和 名、 参数 和 返回 值 关 
函数 体 语 向 区 ， 由 若干 条 滞 句 套 在 {] 里 组 成 





















































开头 可 以 有 一 个 标号 ,语句 有 以 1 : 
语句 块 ， 由 若干 条 语句 套 在 {} 里 组 成 
类 型 定 》 语句 (如 struct 和 enum) 
变量 定义 和 初始 化 语 各 





















































if/else 语 句 
do/while 语 句 
while 语 句 
for 语 句 
goto 语 句 
break 语句 
continue 语 句 
return 语 句 


















标号 有 以 下 几 种 : 
自 定 义 标 号 
case 标 号 
default 标 号 


























zB 





组 成 ， 操 作 数 有 以 下 几 种 : 
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MC UR 顺序 是 : 
lisi : 数组 下 标 []、 函数 调用 O> es 
x s N b EN A HJF! 









































































































PASSAT EDU HALAL DAAE, 其 它 表达 式 则 上 只 能 取 右 值 ， 可 以 取 左 值 的 有 : 
: 变量 


数组 下 标 ， 例 如 a [i+1] 
结构 体 取 成 员 ， 例 如 p .x 






































































































结构 体 和 枚 举 的 类 型 Tag 
结构 体 和 枚 举 的 成 员 名 
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2. 思维 方法 与 编程 思想 


以 概念 为 中 心 ， 第 1 节 “程序 和 编程 语言 ” 

组 合 规则 ， 第 5 s “表达 式 ” 

Least Surprise， 第 3 节 “ 形 参 和 实 参 ” 
充分 条 件 与 必要 条 件 ， 第 4 节 “局 部 变量 与 全 局 变量 ” 
封装 ， 第 2 节 "ifelse 语 句 ” 


布尔 逻辑 ， 第 acp “布尔 代数 ” 

















A, 第 3 Be 
函数 式 编程 ， 第 1 节 “while 语句 " 

AR (第 6 章 循环 语句) 与 增 量 式 求解 (第 2 节 *“ 插 入 排序 ") 
抽象 ， 第 2 节 "数据 抽象 


数据 驱动 ， 第 5 节 “ 多 维 数组 ” 
分 而 治之 ， 第 4 节 “ 归 并 排序 ” 
折 半 求解 ， 第 6 节 “ 折 半 查 找 ” 
回溯 ， 例 12.3“ 用 深度 优先 搜索 解 迷宫 间 题 * 





3. 调试 方法 
。 编译 错误 、 运 行 时 错误 与 语义 错误 ， 
。 增 量 式 开 发 ， 第 2 节 “ 增 量 式 开发 ” 
。 打印 语句 与 Scaffold， 
。gdb,， 第 10 3€ gdb 
。 DbC 5Assertion, 28 6 节 “ 折 半 查 找 ” 








部 分 M. C 语 言 












































1 为 什么 I 一 进 制 计 炎 















































15. 数据 类 型 详解 





Sm 


2 NEIN 
3. 类 型 





3.1. Integer Promotion 
3.2. Usual Arithmetic Conversion 
3.3. 由 赋值 产生 的 类 型 


























理 类 型 














































































































































































































3. Side Effect 与 Sequence Point 


AN = 






































17.3 水系 结构 基 胡 


1. 内 存 与 地 址 
2. CPU 
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第 14 章 计算 机 中 数 的 表示 
1. 为 什么 计算 机 用 二 进 制 计 效 


ART BOTH ETET HE”, PRATHER (Decimal) ， 大 概 因为 人 有 十 个 手指 ， 所 以 十 
进 制 是 最 自然 的 计数 方式 ， 各 民族 的 文字 中 都 有 十 个 数字 ， 而 阿拉 伯 数 字 0-9 是 目前 最 广泛 采用 
的 。 


计算 机 是 采用 数字 电路 搭 成 的 ， 数 字 电 路 中 只 有 1 和 0 两 种 状态 ， 或 者 可 以 说 计算 机 只 有 两 个 手 
指 ， 所 以 对 计算 机 来 说 二 进 制 ~ 是 最 自然 的 计数 方式 。 应 用 “着 二 进 一 " 的 原则 ， 十 进 制 
的 1、2、3、4 分 别 对 应 二 进 制 的 1、 11、100。 二 进 制 的 一 位 数字 称 为 一 个 位 (Bi), = 
个 bit 能 够 表示 的 最 大 的 二 进 第 eens 也 就 是 十 进 制 的 7。 不 管用 哪 种 计数 方式 ， 数 的 大 小 并 
没有 变 ， 十进制 的 1+1 等 于 2， 二 进 制 的 1+1 等 于 10， 但 二 进 制 的 10 和 十 进 制 的 2 大 小 是 相等 的 。 
事实 上 ,计算 机 采用 如 下 的 逻辑 电路 计算 两 个 bit 的 加 法 : 













































































































































































if 



































































































































图 14.1. 1-bit Full Adder 





A 
B S 
Cin 
Cout 
XOR wire 
^ ^; A ° 
NAND NO Inverter cross connect 




















图 的 上 半 部 分 〈 出 自 Wikipedia) 的 电路 称 为 一 位 全 加 器 (1-bit Full Adder) ， 图 的 下 半 部 分 是 
一 些 逻 辑 电 路 符号 的 图 例 ， 我 们 首先 解释 这 些 图 例 。 逻 辑 电路 由 门 电路 (Gate) 和 导线 
(Wire) 组 成 ， 同 一 条 导线 上 在 某 一 时 刻 的 电压 值 只 能 是 高 和 低 两 种 状态 之 一 ， 分 别 用 0 和 1 表 






















































































示 。 如 果 两 条 导线 接 在 一 起 则 它们 的 电压 值 相 同 ， 在 接点 处 画 一 个 黑 点 ， 如 果 接 点 处 没有 画 黑 
点 则 表示 这 两 条 线 并 没有 接 在 一 起 ， 只 是 在 画图 时 无 法 避免 交叉 。 导线 的 电压 什 进入 门 电路 的 
输入 端 ， 经 过 逻辑 运算 后 在 门 电路 的 输出 端 输出 运算 结果 的 电压 值 ， 任何 B uc 
都 可 AND、OR 和 NOT 运 算 在 第 3 i “布尔 代 讲 过 了 ， 这 三 种 逻 
辑 运 算 分 别 用 与 门 、 或 i ] 和 反 相 器 (Inverter) 实现 。 另 外 几 种 逻辑 运 储 MORSU x 异 或 
(XOR, RA OR) 运算 的 真 值 表 如 下 : 

































































































































































































































































































































































表 14.1. XOR 的 真 值 表 



































一 句 话 概 括 就 是 : 两 个 操作 数 相同 则 结果 为 0， 两 个 操作 数 不 同 则 结果 为 1。 与 非 (NAND) 和 
或 非 (NOR) 运算 就 是 在 与 、 或 运算 的 基础 上 取 反 : 






























































表 14.2. NAND 的 真 值 表 


JIA nano 




































































如 果 把 与 门 、 或 门 和 反 相 器 组 合 来 实现 NAND 和 NOR 运 算 ， 则 电路 过 于 复杂 了 ， 因 此 次 辑 电 路 
' 通 常 有 专用 的 与 非 门 和 或 非 门 。 现 在 我 们 看 看 上 图 中 的 AND、OR、XOR 是 怎么 实现 两 个 bit 的 
加 法 的 。A、B 是 两 个 加 数 ，Cin 是 低位 传 上 来 的 进位 (Carry) ， 相 当 于 三 个 加 数 求 和 ， 三 个 加 
数 都 是 0 则 结果 为 0， 三 个 加 数 都 是 1 则 结果 为 1{1， 也 就 是 说 输出 位 S 是 1， 产 生 的 进位 Cout 也 
是 1。 下 面 根据 加 法 的 规则 用 真 值 表 列 出 所 有 可 能 的 情况 : 
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# 14.4. 1-bit Full Adder 的 真 值 表 
a a) 
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图 14.2. 4-bit Ripple Carry Adder 


As Bs A» B2 A: Bi Ao Bo 
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的 Cn， 让 进位 像 涟 满 一 样 一 级 一 级 传 开 ， 所 以 叫做 Ripple Carry Adder， 这 样 就 可 以 把 两 个 4 
bit 一 进 制 数 AsAzA1Ao 和 B3sB2B1Bo 加 起 来 了 。 在 这 里 介绍 Ripple Carry Adder 只 是 为 了 让 读者 
理解 计算 机 是 怎么 通过 逻辑 运算 来 做 算术 运算 的 ， 实 际 上 这 种 加 法 器 效率 很 低 ， 只 能 加 完了 一 
位 再 加 下 一 位 ， 更 实用 、 更 复杂 的 加 法 器 可 以 多 个 位 一 起 计算 ， 有 兴趣 的 读者 可 参考 [数字 逻辑 
基础 ]。 


上 一 页 pm 
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2. 不 同 进 制 之 间 的 换算 





第 14 章 计算 机 中 数 的 表示 
2. 不 同 进 制 之 间 的 换算 
在 十 进 制 中 ,个 位 的 1 代表 100=1， 十 位 的 1 代表 101=10 ， 百 位 的 1 代表 102=100 ATLL 
































123=1x102+2x101+3x100 


同样 道理 ， 在 二 进 制 中 ,个 位 的 1 代表 29=1， 十 位 的 1 代表 21=2， 百 位 的 1 代表 2*=4， 所 以 
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(As3A>A1A0)2=Aax23+Apx22+A1x21+Aox20 














如 果 二 进 制 和 十 进 制 数 出 现在 同一 个 等 式 中 ， 为 了 区 别 我 们 用 (AsA>A1Ao)2> 这 种 形式 表 

示 A3A>A1A0 是 二 进 制 数 ， 每 个 数字 只 能 是 0 或 1， 其 它 没有 套 括号 加 下 标的 数 仍 表 示 十 进 制 数 。 
对 于 (AsAzA1Ao)2> 这 样 一 个 二 进 制 数 ， 最 左边 的 As 位 称 为 最 高 位 (MSB, Most Significant 

Bit) ， 最 右边 的 Ao 位 称 为 最 低位 (LSB, Least Significant Bit) 。 以 后 我 们 遵循 这 样 的 惯 

例 : LSB 称 为 第 0 位 而 不 是 第 1 位 ， 所 以 如 果 一 个 数 是 32 位 的 ， 则 MSB 是 第 31 位 。 上 式 就 是 从 二 
进 制 到 十 进 制 的 换算 公式 。 作 为 练习 ， 请 读者 算 F(1011)> 和 (1111)> 换 算 成 十 进 制 分 别 是 多 


"b, 








































































































































































































下 面 来 看 十 进 制 怎么 换算 成 二 进 制 。 我 们 知道 








13=1x23+1x22+0x21+1x20 


所 以 13 换 算 成 二 进 制 应 该 是 (1101)2。 问 题 是 怎么 把 13 分 解 成 等 号 右边 的 形式 呢 ? 注 意 到 等 号 右 
边 可 以 写成 


13=((((0x2+13)x2+12)x2+01)x2+10 










































































我 们 将 13 反 复 除 以 2 取 余 数 就 可 以 提取 出 上 式 中 的 1101 四 个 数字 ， 为 了 让 读者 更 容易 看 清楚 是 
哪个 1 和 哪个 0， 上 式 和 下 式 中 对 应 的 数字 都 加 了 下 标 : 


13:2-6...19 
6:2-3...0, 
















































































把 这 四 步 得 到 的 余数 按 相反 的 顺序 排列 就 是 13 的 二 进 制 表 示 ， 因 此 这 种 方法 称 为 除 二 反 序 取 余 



































计算 机 是 用 一 进 制 表示 数据 的 ， 因 此 程序 员 也 必须 习惯 使 用 一 进 制 ， 但 二 进 制 写 起 来 太 哆 吧 
了 ， 所 以 通常 将 二 进 制 数 分 成 每 三 位 一 组 或 者 每 四 位 一 组 ， 每 组 用 一 个 数字 表示 。 比 如 

把 (10110010)2 从 最 低位 开始 每 三 位 分 成 一 组 ，10、110、010， 然 后 把 每 一 组 写成 一 个 十 进 制 
数字 ， 就 是 (262)8 ， 这 种 表示 方式 数字 的 取 值 范围 是 0~7， 首 八 进 一 ， 称 为 八进制 (Octal) 。 
类 似 地 ， 把 (10110010)s 分 成 每 四 位 一 组 ，1011、0010， 然 后 把 每 一 组 写成 一 个 数字 ， 这 个 数 
的 低位 是 2， 高 位 已 经 大 于 9 了 ， 我 们 规定 用 字母 A~F 表 示 10~15， 则 这 个 数 可 以 写成 (B2)16， 这 
种 表示 方式 数字 的 取 值 范围 是 0~F ， 首 十 六 进 一 ， 称 为 十 六 进 制 (Hexadecimal) 。 所 以 ， 八 进 




































































































































































制 和 十 六 进 制 是 程序 员 为 了 书写 二 进 制 方便 而 发 明 的 简便 写法 ， 好比 草书 和 正楷 的 关系 一 样 。 
3m 

1、 二 进 制 小 数 可 以 这 样 定义 : 

(0.A1A2A3.…)2=A1x2-1+Apx2-2+A3x2-3+.. 


这 也 是 从 二 进 制 小 数 到 十 进 制 小 数 的 换算 公式 。 从 本 节 讲 的 十 进 制 转 二 进 制 的 推导 过 程 出 发 ， 
类 比 一 下 ， 十 进 制 小 数 换算 成 二 进 制 小 数 应 该 怎么 计算 ? 


2、 再 类 比 一 下 ， 八 进 制 (或 十 六 进 制 ) 与 十 进 制 之 间 如 何 相互 换算 ? 





3. 整数 的 加 减 运算 
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整数 的 加 减 运算 


我 们 已 经 7 了解 了 计算 机 中 正 整 数 如 何 表 示 ， 加 法 如 何 计算 ， 那么 负数 如 何 表 示 呢 ?减法 又 如 何 
计算 呢 ? 本 忆 来 讨论 这 个 问题 。 为 了 书写 方便 ， 本 下 举 的 例子 都 用 8 个 bit 表 示 一 个 数 ， 实 际 计算 
机 算术 运算 的 操作 数 可 以 是 8 位 、16 位 、32 位 甚至 64 位 的 。 


要 用 8 个 bit 表 示 正 数 和 负数 ， 一 种 简单 的 思路 是 把 最 高 位 当 作 符号 位 (Sign Bit) ，0 表 示 正 1 表 
示 负 ， 剩 下 的 七 位 表示 绝对 值 的 大 小 ， 这 称 为 Sign and Magnitude 表 示 法 。 例 如 - 1 表示 

成 10000001 ，+1 表 示 成 00000001。 思 考 一 下 ，N 个 bit 的 Sign and Magnitude 表 示 法 能 够 表示 
的 最 大 整 TORIN ERG) AES >? 请 写 出 算式 。 


计算 机 要 对 这 样 的 两 个 数 做 加 法 运算 需要 处 理 以 下 逻辑 : 


. 如 果 两 数 符号 位 相同 ， 就 把 它们 的 低 7 位 相 加 ， 符 号 位 不 变 。 如 果 低 7 位 相 加 时 在 最 高 ALPE 
生 进 位 ， 则 结果 超出 7 位 所 外 E 表 示 的 数值 范围 ， 这 称 为 溢出 (Overflow) ,通常 把 计算 机 
! 的 一 个 标志 位 置 1 表示 产 生 洪 出 。 


2. 如 果 两 数 符号 位 不 同 ， 首 先 比 较 它们 的 低 7 位 谁 大 ， 然 后 用 大 数 减 小 数 ， 结 果 的 符号 位 和 
大 数 相同 。 


减法 运算 需要 处 理 以 下 过 辑 : 


1. 如 宁 两 数 符 号 位 相同 ， 并 且 低 7 位 是 大 数 减 小 数 ， 则 符号 位 不 变 ， 如 果 低 7 位 是 小 数 减 大 
数 ， 则 按 大 数 减 小 ; 数 计算 ， 结 采 要 变 号 。 


2. 如 果 两 数 符号 位 不 同 ， 把 低 7 位 相 加 ， 如 果 是 正 数 减 负数 则 结果 为 正 ， 如 果 是 负数 减 正 数 
则 结果 为 负 ， 低 7 位 在 相 加 时 可 能 产生 溢出 。 


这 其 实 和 手 算 加 减法 的 逻辑 是 相同 的 。 算 加 减法 需 : IEEE A AER: 比较 符号 位 ， 比 较 绝 对 
值 ， 加 法 改 减 法 ， 减 法 改 加 法 ， 小 数 减 大 数 改 成 大 数 减 小 数 ...... ven cand 还 有 一 个 
缺点 是 0 的 表示 不 唯一 ， 既 可 以 表示 成 10000000 也 可 以 表示 成 00000000 , ZEE Y XE SR 
复杂 性 ， 所 以 我 们 迫切 需要 重新 设计 数 的 表示 方法 ， 以 俩 计算 过 程 更 简单 。 

有 一 种 方法 可 以 把 减法 全 部 转化 成 加 法 来 计算 ， 这 样 就 不 必 设 计 加 法 圳 和 诚 法 吉 两 套 电 路 了 。 
我 们 以 十 进 制 减法 为 例 来 理解 一 下 这 种 方法 。 比 如 
167-52=167+(999-52)-1000+1=167+947-1000+1=1114-1000+1=114+1=115 

首先 把 52 换 成 999-52 ， 也 就 是 947 ， 这 称 为 取 9 的 补 码 (9's Complement) ， 虽 然 这 也 是 减法 但 
它 不 需要 借 位 ， 只 需要 对 每 位 数字 分 别 取 补 码 ， 所 以 比 一 般 的 减法 要 简单 得 多 。 然 后 

把 167 和 947 相 加 ， 百 位 上 的 进位 舍 去 ， 得 到 114， 然 后 再 加 1 得 到 115[240 ， 这 就 是 最 终结 果 了 。 
一 句 话 概括 就 是 : Not MEET Lk MOIS (忽略 最 高 位 的 进位 ) 。 

这 种 方法 也 可 以 类 推 到 二 进 制 加 减法 : 减 去 一 个 数 等 于 加 上 这 个 数 取 1 的 补 码 (d's 
Complement) 再 加 1 (忽略 MSB 的 进位 ) 。 取 1 的 补 码 就 是 1-1=0，1-0=1 ， 其 实 相当 于 把 每 
位 数字 取 反 了 ， 以 后 将 1 的 补 码 简称 为 反 人 码 。 比 如 


00001000-00000100->00001000+11111011+1->00000011+1=00000100 
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上 式 的 前 两 步 不 是 等 价 变换 ， 所 以 没有 用 = 号 而 是 用 -> 表示 ， 第 一 步 多 加 了 一 个 100000000， 第 
二 步 少 加 了 一 个 100000000， 效 果 相 互 抵消 ， 所 以 最 终结 果 正 是 00001000-00000100 的 结果 。 
现在 我 们 发 现 ， 如 果 把 第 一 步 写成 00001000+(-00000100)->00001000+11111011+1 ， 

则 11111011+1 就 可 以 用 来 表示 负数 -00000100 。 所 以 ， 补 码 表示 法 不 仅 可 以 把 减法 转化 为 加 
法 ， 而 且 合 理 地 规定 了 负数 的 表示 方法 ， 就 是 “ 先 取 反 人 码 再 加 1”。 负 数 的 这 种 表示 称 为 2 的 补体 
(2's Complement) ， 以 后 简称 为 补 码 。 为 什么 称 为 2 的 补 码 呢 ? 因 为 如 果 对 一 位 数 取 补 码 ， 
则 1 的 补 码 是 1-1+1=10-1=1， 相 当 于 从 2 里 面 减 去 1。 类 似 地 ， 对 00000100 取 补 码 是 11111111- 
00000100+1=100000000-00000100 ， 相 当 于 从 100000000 (十 进 制 的 256) 里 面 减 
4200000100. 


将 负数 全 部 用 补 码 表示 之 后 ，8 个 bit 可 以 表示 的 正 数 有 00000000~01111111 (T 
的 0~127) ， 负 数 有 10000000~11111111 (十 进 制 的 -128~-1) ， 合 起 来 是 十 进 制 的 - 
128~127， 一 共 256 个 数 ， 而 8 个 bit 最 多 可 以 表示 28=256 个 不 同 的 数 ， 所 以 已 经 充分 利用 了 
这 8 个 bit， 每 个 数 都 具有 一 种 表示 ，0 也 只 有 一 种 表示 就 是 00000000 。 我 们 还 发 现 ， 所 有 正 数 的 
最 高 位 是 0， 所 有 负数 的 最 高 位 是 1， 因 此 最 高 位 仍然 具有 符号 位 的 含义 ， 要 检查 一 个 数 是 正 是 
负 只 要 看 最 高 位 就 可 以 了 ， 但 在 计算 时 却 可 以 把 符号 位 和 数 放 在 一 起 做 加 法 运算 ， 而 不 必 

像 Sign and Magnitude 表 示 法 那样 对 符号 位 单独 处 理 。 


采用 补 码 做 加 减 运算 时 总 是 忽略 MSB 的 进位 ， 这 让 人 很 不 放心 : 如 果 在 计算 过 程 中 忽略 进位 的 
效果 没有 相互 抵消 怎么 办 ?如 果 没 有 相互 抵消 ， 最 后 的 结果 肯定 是 错 的 ， 这 种 情况 一 定 是 由 洲 
出 引起 的 。 只 要 我 们 有 办 法 判断 哪些 情况 会 产生 溢出 ， 其 它 情况 下 都 可 以 放心 地 忽略 MSB 的 进 
位 。 判 断 汶 出 的 办 法 是 这 样 的 : 在 相 加 过 程 中 最 高 位 产生 的 进位 和 次 高 位 产生 的 进位 如 果 相 同 
则 没有 汶 出 ， 否 则 就 说 明 产 生 了 溢出 。 逻 辑 电 路 的 实现 可 以 把 这 两 个 进位 连接 到 一 个 异 或 门 ， 
把 异 或 门 的 输出 连接 到 溢出 标志 位 。 对 于 8 位 二 进 制 数 的 加 减 运算 来 说 ， 当 计算 结果 超出 - 
128~127 的 范围 时 就 会 淤 出 ， 例 如 : 















































































































































































































































































































































































































































































































































































































































图 14.3. 有 符号 数 加 法 溢出 





10000010 -126 
+ 11111000 + -8 

100000000 进位 

01111010 = 122 ? 


















































最 高 位 产生 的 进位 是 1， 次 高 位 产生 的 进位 是 0， 说 明 洪 出 了 ， 计 算 结 果 换算 成 十 进 制 是 122， 这 
显然 不 对 ， 根 本 原因 是 (-126)+(-8)=-134 超 出 了 8 位 二 进 制 数 能 表示 的 范围 。 


用 8 个 bit 既 表示 正 数 又 表示 负数 ， 则 能 够 表示 的 范围 是 -128~127， 如 果 8 个 bit 全 部 表示 正 数 ， 则 
能 够 表示 的 范围 是 0~255， 前 者 称 为 有 符号 数 (Signed Number) ， 后 者 称 为 无 符号 交 

(Unsigned Number) 。 但 是 计算 机 在 做 加 法 时 并 不 区 分 操作 数 是 有 符号 数 还 是 无 符号 数 ， 计 
算 过 程 都 是 一 样 的 ， 所 以 上 面 的 例子 也 可 以 看 作 无 符号 数 的 加 法 : 
























































































































































图 14.4. 无 符号 数 加 法 进位 


10000010 130 
+ 11111000 + 248 


100000000 进位 





01111010 = 122 +256 

































































把 两 个 操作 数 看 作 无 符号 数 分 别 是 130 和 248， 计 算 结 果 换算 成 十 进 制 是 122， 最 高 位 的 一 个 进 
位 相当 于 256 ，122+256 这 个 结果 是 对 的 。 计 算 机 的 加 法 需 在 做 完 计 算 之 后 ， 根 据 最 高 位 产生 的 
进位 设置 进位 标志 ， 同 时 根据 最 高 位 和 次 高 位 产生 的 进位 的 寞 或 设置 溢出 标志 。 至 于 这 个 加 法 
到 底 是 有 符号 数 加 法 还 是 无 符号 数 加 法 则 取决 于 程序 怎么 理解 了 ， 如 果 程 序 把 它 理解 成 有 符号 
数 加 法 ， 就 去 检查 溢出 标志 ， 如 果 程 序 把 它 理 解 成 无 符号 数 加 法 ， 就 去 检查 进位 标志 。 通 常 计 
算 机 在 做 算术 运算 之 后 还 可 能 设置 男 外 两 个 标志 ， 如 果 结 果 为 零 则 设置 零 标 志 ， 如 果 结 果 的 最 
高 位 是 1 则 设置 负数 标志 〈 只 有 当 理 解 成 有 符号 数 运 算 时 才 去 检查 这 个 标志 ) e 





























































































































































































































































































































[21] 也 可 以 看 作 是 把 百 位 上 的 进位 加 回 到 个 位 上 去 ， 本 来 应 该 加 1000， 结 果 加 了 1， 少 加 
了 999， 正 好 把 先前 多 加 的 999 抵 消 了 。 
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2. 不 同 进 制 之 间 的 换算 





4. 浮 点 数 


第 14 章 计算 机 中 数 的 表示 





4. TERN 


浮 点 数 在 计算 机 中 的 表示 是 基于 科学 计数 法 (Scientific Notation) 的 ， 我 们 知道 32767 这 个 数 用 
科学 计数 法 可 以 写成 3.2767x104，3.2767 称 为 尾数 (Mantissa ， 或 者 叫 Significand) ，4 称 为 
指数 (Exponent) 。 浮 点 数 在 计算 机 中 的 表示 与 此 类 似 ， 只 不 过 基数 (Radix) 是 2 而 不 是 10。 
下 面 我 们 用 一 个 简单 的 模型 来 解释 浮 点 数 的 基本 概念 。 我 们 的 模型 由 三 部 分 组 成 : 符号 位 、 指 
数 部 分 (表示 2 的 多 少 次 方 ) 和 尾数 部 分 (只 表示 小 数 点 后 的 数字 ) 。 




























































































图 14.5. 一 种 浮 点 数 格 式 


sign exponent significand 
bit 























如 果 要 表示 17 这 个 数 ， 我 们 知道 17=17.0x100=1.7x101=0.17x102， 类 似 
地 ，17=(10001)2x20=(0.10001)2x23， 把 尾数 的 有 效 数字 全 部 移 到 小 数 点 后 ， 这 样 就 可 以 表示 
为 : 


























图 14.6. 17 的 浮 点 数 表示 


|o | 0010 10001000 
sign exponent significand 
bit 
























































如 果 我 们 要 表示 0.25 就 遇 到 新 的 困难 了 ， 因 为 0.25=1x2-2=(0.1)2x2-1， 而 我 们 的 模型 中 指数 部 
分 没有 规定 如 何 表示 负数 。 我 们 可 以 在 指数 部 分 里 规定 一 个 符号 位 ， 然 而 更 有 效 和 广泛 采用 的 
办 法 是 使 用 偏 移 的 指数 (Biased Exponent) 。 规 定 一 个 偏 移 值 ， 比 如 16 ， 实 际 的 指数 要 加 上 这 
个 偏 移 值 再 填写 到 指数 部 分 ， 这 样 ， 比 16 大 的 就 表示 正 指数 ， 比 16 小 的 就 表示 负 指 数 。 要 表 
示 0.25 ， 指 数 部 分 应 该 填 16-1=15: 




















































































































图 14.7. 0.25 的 偏 移 指 数 浮 点 数 表 示 





| 0 | onu 10000000 
sign biased significand 
bit exponent 




















现在 还 有 一 个 问题 需要 解决 : 每 个 浮 点 数 的 表示 方法 都 不 唯一 ， 例 
如 17=(0.10001)>x25=(0.010001)2x26， 这 样 给 计算 机 处 理 增添 了 复杂 性 。 为 了 解决 这 个 问题 ， 
我 们 规定 尾数 部 分 的 最 高 位 必须 是 1， 也 就 是 说 尾数 必须 以 0.1 开 头 ， 对 指数 做 相应 的 调整 ， 这 

































































称 为 正规 化 (Normalize) 。 由 于 尾数 部 分 的 最 高 位 必须 是 1， 这 个 1 就 不 必 保 存 了 ， 可 以 节省 出 
位 来 用 于 提高 精度 ， 我 们 说 最 高 位 的 1 是 隐 含 的 (implied) 。 这 样 17 就 只 有 一 种 表示 方法 
了 ， 指 数 部 分 应 该 是 16+5=21=(10101)。 ， 尾 数 部 分 去 掉 最 高 位 的 1 是 0001 : 






























































图 14.8. 17 的 正规 化 尾数 浮 点 数 表示 


o | 10101 00010000 
sign biased normalized 
bit exponent significand 














两 个 浮 点 数 相 加 ， 首 先 把 小 数 点 对 齐 然后 相 加 : 














图 14.9. 浮 点 数 相 加 
+ 


| Oo | 10010 11011101 
11.0010000 


+ 0.100110110 


11.101110110 




































































由 于 计算 机 浮 点 数 表 示 的 精度 有 限 ， 计 算 结 果 末 尾 的 10 两 位 被 舍 去 了 。 做 浮 点 运算 时 要 注意 精 
度 问 题 ， 有 了 时候 计 算 顺 序 不 同 也 会 导致 不 同 的 结果 ， 把 上 面 的 例子 改 一 

下 ，11.0010000+0.00000001+0.00000001=11.0010000+0.00000001=11.0010000， 后 面 加 的 
两 个 很 小 的 数 全 被 舍 去 了 ， 没 有 起 任何 作用 ， 但 如 果 换 一 下 计算 顺序 就 能 影响 到 计算 结果 
了 : 0.00000001+0.00000001+11.0010000=0.00000010+11.0010000=11.0010001。 再 比 
如 128.25=(10000000.01)> ， 需 要 10 个 有 效 位 ， 而 我 们 的 模型 中 尾数 部 分 是 8 位 ， 算 上 隐 含 的 最 
高 位 1 一 共有 9 个 有 效 位 ， 那 么 128.25 的 浮 点 数 表示 只 能 舍 去 末尾 的 1， 表 示 成 (10000000.0)。， 
其 实 跟 128 相 等 了 。 


浮 点 数 是 一 个 相当 复杂 的 话题 ， 本 市 只 是 通过 这 个 简单 的 模型 介绍 一 些 基 本 概念 而 不 深入 讨 
论 ， 理 解 了 这 些 基本 概念 有 助 于 你 理解 浮 点 数 标 准 ， 目 前 业界 广泛 采用 的 符 点 数 标准 是 
由 IEEE (Institute of Electrical and Electronics Engineers) 制定 的 IEEE 754. 
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3. 整数 的 加 减 运 算 第 15 章 数据 类 型 详解 
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Be 第 15 章 数据 类 型 详解 下 页 
1. 整 型 
计算 机 存储 的 最 小 单位 是 字 市 (Byte) 一 个 字 节 通常 是 8 个 bit。C 语 言 规定 cnar 型 占 一 个 字 市 


















































的 存储 空间 。 如 果 这 8 个 bit 按 无 符号 整 数 来 解释 ， 则 取 值 范围 是 0~255， 如 果 按 有 符号 整数 来 解 
释 ， 则 取 值 范围 是 - 128-127. C 语 言 规定 了 signed 和 unsigned 两 个 关键 字 ， unsigned char 型 表 
NICS? RL, signed char 型 表示 有 符号 数 。 










































































那么 ` 带 signed 或 unsigned 关 键 字 的 cnar 型 呢 ? C 标 准 规定 这 是 Implementation Defined , 编译 
佑 可 以 定义 cnar 型 是 无 符号 的 ， 也 可 以 定义 cnar 型 是 有 符号 的 ， 在 该 编译 髓 和 所 对 应 的 体系 H 
上 哪 种 实现 效率 高 就 可 以 采用 哪 种 实现 ，x86 平 台 的 gcc 定 义 cnar 是 有 符号 的 。 这 也 是 C 标 准 
的 Rationale 之 一 : 优先 考虑 效率 ， 而 可 移植 性 尚 在 其 次 。 这 就 要 求 程序 员 非 常 清楚 这 些 规 则 ， 
如 有 果 你 要 写 可 移植 的 代码 ， 就 必 须 清楚 哪些 写法 是 不 可 移植 的 ， 应 该 避免 使 用 。 男 一 方面 ， 写 
不 可 移植 的 代码 有 时 候 也 是 必要 的 ， 比 如 Linux 内 核 代 码 使 用 了 很 多 gcc 特 性 以 得 到 最 佳 的 执行 
效率 ， 在 写 的 时 候 就 没 打 算 用 别 的 编译 需 编 译 ， 也 就 没 考虑 可 移植 性 的 问题 。 如 果 要 写 不 可 移 
植 的 代码 ， 你 也 必须 清楚 代码 中 的 哪些 部 分 是 不 可 移植 的 ， 以 及 为 什么 要 这 样 写 ， 如 果 不 是 为 
了 效率 ， 一 般 来 说 就 没有 理由 故意 写 不 可 移植 的 代码 。 从 现在 开始 ， 我 们 会 接触 到 很 
多 Implementation Defined 的 特性 ，C 语 言 与 平台 和 编译 需 是 密 不 可 分 的 ， 离 开 了 具体 的 平台 和 
编译 需 讨 论 C 语 言 ， 就 只 能 讨论 到 本 书 第 一 部 分 的 程度 了 。 注 意 ，ASCII 码 的 取 值 范围 
是 0~127， 所 以 不 管 cnar 型 是 有 符号 的 还 是 无 符号 的 ， 存 一 个 ASCII 码 都 没有 问题 ， 一 般 来 说 ， 
如 果 用 char 型 存 ASCII 码 字符 ， 就 不 必 明 确 写 signeda 还 是 unsignea， 如 果 把 char 型 当 作 8 位 的 整 
数 来 用 为 了 可 移植 性 就 人 须 写 明 是 si gned 还 是 unsi gnedo 
































































































































































































































































































































































































































































































































Implementation- 
defined、Unspecified 科 Undefined 


在 C 标 准 中 没有 做 明确 规定 的 地 方 会 用 Implementation- 
defined、Unspecified 或 Undefined 来 表述 ， 在 本 书 中 有 时 把 这 三 
种 情况 统称 为 "未 明确 定义 "的 。 这 三 种 情况 到 底 有 什么 不 同 呢 ? 


我 们 刚才 看 到 一 种 Implementation-defined 的 情况 ，C 标 准 没 有 明 
确 规定 cnar 是 有 符号 的 还 是 无 符号 的 ， 但 是 要 求 编译 器 必须 对 此 
做 出 明确 规定 ， 并 写 在 编译 器 的 文档 中 。 


而 对 于 Unspecified 的 情况 ， 往 往 有 几 种 可 选 的 处 理 方式 ，C 标 准 
没有 明确 规定 按 哪 种 方式 处 理 ， 编 译 器 可 以 自己 决定 ， 并 且 也 不 
必 写 在 编译 器 的 文档 中 ， 这 样 即 使 用 同一 个 编译 器 的 不 同 版 本 来 
编译 也 可 能 得 到 不 同 的 结果 ， 因 为 编译 器 没有 在 文档 中 明确 写 它 
会 怎么 处 理 ， 那 么 不 同 版 本 的 编译 露 就 可 以 选择 不 同 的 处 理 方 
比如 下 一 章 我 们 会 讲 到 一 个 函数 调用 的 各 个 实 参 表 达 式 按 什 
么 顺序 求 值 是 Unspecified 的 。 


Undefined 的 情况 则 是 完全 不 确定 的 ，C 标 准 没 规定 怎么 处 理 ， 编 

译 吉 很 可 能 也 没 规定 ， 甚 至 也 没 做 出 错 处 理 ， 有 很 多 Undefined 的 
情况 是 编译 需 是 检查 不 出 来 的 ， 最 终 会 导致 运行 时 错误 ， 比 如 数 
组 访问 越界 就 是 Undefined 的 。 
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初学 者 看 到 这 些 规则 通常 会 很 不 舒服 ， 觉 得 这 不 是 在 学 编程 而 是 
在 哨 法 律 条 文 ， 结 果 越 学 越 泄 气 。 是 的 ，C 语 言 并 不 像 一 个 数学 定 
理 那 样 完 美 ， 现 实 世界 里 的 东西 总 是 不 够 完美 的 。 但 还 好 啦 ，C 程 
漳 员 已 经 很 幸福 了 ， 只 要 严格 遵照 C 标 准 来 写 代 码 ， 不 要 去 触 碰 那 
些 阴暗 角落 ， 写 出 来 的 代码 就 有 很 好 的 可 移植 性 。 想 想 那 些 可 怜 
的 JavaScript 程 序 员 吧 ， 他 们 甚至 连 一 个 可 以 遵照 的 标准 都 没有 












































































































































一 个 浏览 器 一 个 样 ， 因 而 不 得 不 为 每 一 种 浏览 絮 的 每 个 版 本 分 
别 写 不 同 的 代 但 。 











除了 char 型 之 外 ， 整数 类 型 还 有 short int (或 者 简写 为 short ) ~ int、 long int (或 者 简写 
为 long) » long long int (或 者 简写 为 1ong long) 几 种 ， 这 些 类 型 都 可 以 加 

上 signed 或 unsigned 关 键 字 表示 有 符号 或 无 符号 数 。 那 么 有 符号 数 在 计算 机 中 的 表示 形式 
是 Sign and Magnitude. 1's Complement 还 是 2's Complement? C 标 准 也 没有 明确 规定 ， 也 
是 Implementation Defined 。 大 多 数 体系 结构 都 采用 2's Complement 表 示 形 式 和 加 减 运算 规 
则 ，x86 平 台 也 是 如 此 。 还 有 一 点 要 注意 ， 除 了 char 型 以 外 的 这 些 整数 类 型 如 果 不 明 确 

写 signed 或 unsigned 关 键 字 都 表示 有 符号 数 ， 这 一 点 是 C 标 准 明 确 规定 的 ， 不 是 Implementation 
Defined 。 



















































































































































































除了 char 型 在 C 标 准 中 明确 规定 占 一 个 字 节 之 外 ， 甚 它 整数 类 型 占 几 个 字 节 都 是 Implementation 
Defined。 通 常 的 编译 器 实现 遵守 |LP32 或 LP64 规 范 ， 如 下 表 所 示 。 





























K 15.1. 1ILP32 和 LP64 


ma le ee —— | 
ni 


ong long 












































ILP32 这 个 缩写 的 意思 是 int (D) ~ long (L) 和 指针 (P) 类 型 都 占 32 位 ， 通 常 32 位 计算 机 

的 C 编 译 器 采用 这 种 规范 ，x86 平 台 的 gcc 也 是 如 此 。LP64 是 指 iong (L) 和 指针 占 64 位 ， 通 

说 64 位 计算 机 的 C 编 译 器 采用 这 种 规范 。 指 针 类 型 的 长 度 总 是 和 计算 机 的 位 数 一 致 ， 至 于 什么 是 
计算 机 的 位 数 ， 指 针 又 是 什么 ， 以 后 再 详细 解释 。 从 现在 开始 本 书 做 以 下 约定 : 在 以 后 的 陈述 
， 缺 省 平台 是 x86/Linux/gcc， 遵 循 ILP32 ， 并 且 cnar 是 有 符号 的 ， 我 不 会 每 次 都 加 以 说 明 , 
旦 说 到 其 它 平 台 时 我 会 明确 指出 是 什么 平台 。 


以 前 我 们 只 用 到 10 进 制 的 整数 常量 ， 其 实在 C 语 言 中 也 可 以 用 八进制 和 十 六 进 制 的 整数 常 
量 [2 和。 八进制 整数 常量 以 0 开头 ， 后 面 的 数字 只 能 是 0~7， 例 如 022， 因 此 十 进 制 的 整数 常量 就 
不 能 以 0 开头 了 ， 和 否则 无 法 和 八进制 区 分 。 十 六 进 制 整数 常量 以 0x 或 0X 开 头 ， 后 面 的 数字 可 以 
是 0~9、a~f 和 A~F。 在 第 6 节 “ 字 符 类 型 与 字符 编码 * 讲 过 一 种 转 义 序列 ， 以 \ 或 x 加 八进制 或 十 
六 进 制 数 字 表 示 ， 这 种 表示 方式 相当 于 把 八进制 和 十 六 进 制 整数 常量 开头 的 0 替换 成 \ 了 。 







































































































































































































































































































































































整数 常量 还 可 以 在 未 尾 在 加 u 或 U 表 示 “unsigned”， 加 | 或 L 表 示 “Ilong”， 加 | 或 LL 表 示 “long 


long”， 例 如 0x1234U ，98765ULL 等 。 但 事实 上 u、|、 川 这 几 种 后 缀 和 上 面 讲 
的 unsigned、long、long long 关 键 字 并 不 是 一 一 对 应 的 。 这 个 对 应 关系 比较 复杂 ， 准 确 的 描述 
































如 下 图 所 示 (出 自 [C99] 条 款 6.4.4.1) o 





























表 15.2. 整数 常量 的 类 型 


后 级 O tamm 。 | 八进制 或 十 六 进 制 常量 


int 

unsigned int 

long int 
unsigned long int 
long long int 
unsigned long long int 











int 
long int 
long long int 


unsigned int unsigned int 
unsigned long int unsigned long int 
unsigned long long int}unsigned long long int 


long int 
long int unsigned long int 
long long int long long int 
unsigned long long int 


zi =e, [unsigned long int unsigned long int 
MAURU, SARL unsigned long long intjunsigned long long int 


long long int 
unsigned long long int 


既 有 u 或 U， 又 有 | 或 LLIunsigned long long int|unsigned long long int 


给 定 一 个 整数 常量 ， 比 如 1234U ， 那 么 它 应 该 属于 “u 或 U” 这 一 行 的 "十进制 常 量 " 这 一 列 ， 这 个 表 
格 单元 al) — 种 类 型 unsionea int、 unsigned long int、 unsigned long long int, 从 上 到 
下 找 出 第 一 个 足够 长 的 类 型 可 以 表示 1234 这 个 数 ， 那 么 它 就 是 这 个 整数 常量 的 类 型 ， 如 

果 int 是 32 位 的 那么 unsigned int 就 可 以 表示 。 


long long int 























































































































再 比如 0xffff0000 ， 应 该 属于 第 一 行 无 的 第 二 列 八 进 制 或 十 六 进 制 常量 ， 这 一 列 有 六 种 类 
unsigned int» long int» unsigned long int» long long int» unsigned long long 
int ， 第 一 个 类 型 int 表 示 不 了 0xffff0000 这 么 大 的 数 ， 我 们 写 这 个 十 六 进 制 常 量 是 要 表示 一 个 正 
A. 而 它 的 MSB (553102) 是 1， 如 条 按 有 符号 int 类 型 来 解释 就 成 了 负数 了 ， 第 二 个 类 

型 unsigned int 加 以 表示 i 这 个 数 ， 所 以 这 个 十 六 进 制 常量 [的 类 型 应 该 算 unsigned into 


最 后 总 结 一 下 哪些 类 型 属于 整 型 这 个 大 的 概念 。 整 型 包括 本 节 讲 的 有 符号 和 无 符号 
的 char、 int、 long^ long long, 还 包括 以 后 要 讲 的 Bit- field , 此 外 ， 枚 举 常 量 就 是 int 型 的 ， 
所 以 也 属于 整 型 。 
















































































































































































































































































[22] 有 些 编译 器 〈 比 如 gcc) 也 支持 二 进 制 的 整数 常量 ， 以 0b 或 0B 开 头 ， 比 如 0b0001111 ， 但 二 
进 制 的 整数 稼 量 从 未 进入 C 标 准 ， 只 是 某 些 编译 需 的 扩展 ， 所 以 不 建议 使 用 ， 由 于 二 进 制 和 八 进 
制 、 十 六 进 制 的 对 应 关系 非常 明显 ， 用 八进制 或 十 六 进 制 常 量 完全 可 以 代 蔡 使 用 二 进 制 和 常量。 


2. 浮 点 型 





第 15 章 数据 类 型 详解 


2. EL 





C 标 准 规 AER E K 点 型 有 fl oat» double. long double, 和 整数 类 型 一 样 ， 既 没 有 规定 每 种 类 型 iH 
BOE, UBS A HF SE A UG LARA, 有 的 处 理 
有 浮 点 运算 单元 〈 称 为 硬件 实现 ) ， 有 的 处 理 器 没有 ， 只 能 做 整数 运算 ， 那 么 就 要 用 整数 运 
来 模拟 浮 点 运算 〈 称 为 软件 实现 ) ， 虽然 大 部 分 平台 的 浮 点 数 实现 〈 硬 件 或 软件 实现 ) 是 遵 
754 的 ， 但 仍 有 很 多 平台 的 实现 没有 遵循 IEEE 754。x86 处 理 器 通常 是 有 浮 点 运算 单元 
的 ， 遵循 IEEE 754, float Al) 通常 是 32 位 ， double) 通常 是 64 位 。 


以 前 我 们 只 用 到 最 简单 的 浮 点 数 常 量 ， 例 如 3.14， 现 在 看 看 浮 点 数 常量 还 有 哪些 写法 。 由 于 浮 
点 数 在 计算 机 中 的 表示 是 基于 科学 计数 法 的 ， 所 以 浮 点 数 常量 也 可 以 写成 科学 计数 法 的 形式 ， 
尾数 和 指数 之 间 用 e 或 E 隔 开 ， 例 如 314e-2 表 示 314x10-2 ， 注 意 这 种 表示 形式 基数 是 10[23] in 
果 尾 数 的 小 数 点 左边 或 右边 没有 数字 则 表示 这 一 部 分 为 零 ， 例 如 3.e-1，.987 等 等 。 浮 点 数 也 可 
以 加 一 个 后 级 ， 例 如 3.14f、.01L， 浮 点 数 的 后 级 和 类 型 之 间 的 对 应 关系 比较 简单 ， 没 有 后 级 的 
浮 ABM coupe 型 的 ， AG Bre Ne RU He float” 由 的 ， 有 后 级 | 或 L 的 浮 点 数 常 量 
是 long double 型 的 。 
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[23] C99 引 入 一 种 新 的 十 六 进 制 浮 点 数 表示 ， 基 数 是 2， 本 书 不 做 详细 介绍 
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1. 整 型 起 始 页 3. 类 型 转换 


3. 类 型 转换 
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类 型 转换 


如 果 有 人 问 C 语 法 规则 中 最 复杂 的 是 哪 一 部 分 ， 我 一 定 会 说 是 类 型 转换 。 从 上 面 两 节 可 以 看 出 ， 
有 符号 、 SLRS SEACH ICCA IL HOD 每 两 种 类 型 之 间 都 要 定义 一 个 转换 规 
则 ， 转 换 规则 的 数量 目 然 很 庞大 ， 更 何况 由 于 各 种 体系 结构 对 于 整数 和 浮 点 数 的 实现 很 不 相 
同 ， 很 多 类 型 转换 的 情况 都 是 C 标 准 未 做 明确 规定 的 阴暗 角落 。 虽 然 我 们 写 代码 时 不 会 故意 去 触 
碰 这 些 阴 瞳 角落 ， 但 仍然 有 时 候 会 不 小 心 犯错 ， 所 以 了 解 一 些 未 明确 规定 的 情况 还 是 有 必要 
的 ， 可 以 在 出 错时 更 容易 分 析 错 误 原 因 。 本 市 分 成 几 小 市 介绍 哪些 情况 下 会 发 生 类 型 转换 ， 会 
发 生 什么 样 的 类 型 转换 ， 然 后 介绍 编译 能 如 何 处 理 这 样 的 类 型 转换 。 























































































































































































































































































































3.1. Integer Promotion 

















在 个 表达 式 ; 凡是 可 以 使 用 int 或 unsignedq int 类 型 做 右 值 的 地 方 也 都 可 以 使 用 有 符号 或 无 
符号 的 cnar 型 、short 型 和 Bit-field。 如 果 原 始 类 型 的 取 值 范围 都 能 用 int 型 表示 ， 则 其 值 被 提升 
为 int 型 ， 如 果 表 示 不 了 就 提升 为 unsigned int 型 ， 这 称 为 Integer Promotion。 做 Integer 
Promotion 只 影响 上 述 几 种 类 型 的 值 ， 对 其 它 类 型 无 影响 。C99 规 定 Integer Promotion 适 用 于 以 
下 几 种 情况 : 


1、 如 果 一 个 函数 的 形 参 类 型 未 知 ， 例 如 使 用 了 Old Style C 风 格 的 函数 声明 ( 详 见 第 2 节 “ 自 定 
义 函 数 ") ， 或 者 函数 的 参数 列表 中 有 ... ， 那 么 调用 函数 时 要 对 相应 的 实 参 做 Integer 
Promotion, HESR, FAS Rea E ERER aoum, 这 条 规则 称 为 Default 
Argument Promotion. T c iu i ' 有 .. T1 hate 其 它 形 参 的 
类 型 都 是 未 知 的 ， 因 此 我 们 在 调用 printf(" ') 时 ，'a' 其 实 被 提升 为 int 型 之 后 才 传 给 


了 printf。 


2、 算 术 运 算 中 的 类 型 转换 。 有 符号 或 无 符号 的 cnar 型 、short 型 和 Bit-field 在 做 算术 运算 之 前 首 
先 要 做 Integer Promotion， 然 后 才能 参与 计算 。 例 如 : 









































































































































































































































































































































































































































































































































“inesugned char cil 05 2- 
p LE ig = Cll 4 e2; 









































计算 表达 式 c1 十 c2 的 过 程 其 实 是 先 把 ce1 和 c2 提 升 为 int 类 型 然后 相 加 (unsigned char 的 取 值 范 
围 是 0~255 ， 完全 可 以 用 int 表 示 ， 所 以 提升 为 int 就 可 以 ] > 不 需要 提升 为 unsigned int) " 整 
个 表达 式 的 值 也 是 int 型 ， 最 后 的 结果 是 257。 假 如 没有 这 个 提升 的 过 程 ，c1 + c2 就 溢出 了 ， 最 
后 的 结果 应 该 是 1。 


那么 除了 + 号 之 外 ， 还 有 哪些 运算 符 在 计算 之 前 需要 做 Integer Promotion 呢 ?我 们 在 下 一 小 市 先 
介绍 Usual Arithmetic Conversion 规 则 ， 然 后 再 解答 这 个 问题 。 

































































gun 

























































































3.2. Usual Arithmetic Conversion 




































































两 个 算术 类 型 的 操作 数 做 算术 运算 ， 比 如 a + b， 如 果 两 边 操作 数 的 类 型 不 同 ， 编 译 器 会 自动 做 
类 型 转换 ， 使 两 边 类 型 相同 之 后 才 做 运算 ， 这 称 为 Usual Arithmetic Conversion。 转 换 规 则 如 
ales 


1. 如 果 有 一 边 的 类 型 是 1ong double, uF 边 也 转 成 long doubleo 













































































2. 和 否则， 如 果 有 一 边 的 类 型 是 aouble， 则 把 另 一 边 也 转 成 aouble。 
3. 和 否则， 如 果 有 一 边 的 类 型 是 float ， 则 把 另 一 边 也 转 成 float o 


4. 和 否则， 两 边 应 该 都 是 整数 类 型 ， 首 先 按 上 一 小 节 讲 过 的 规则 对 a 和 b 做 Integer Promotion, 
然后 如 果 类 型 仍 不 相同 ， 则 需要 继续 转换 。 首 先 规 定 char、short、int、1long、long 
long 的 转换 级 别 (Integer Conversion Rank) 一 个 比 一 个 高 ， 同 一 类 型 的 有 符号 和 无 符号 

数 具 有 相同 的 Rank ， 然 后 有 如 下 转换 规则 : 


a. 如 果 两 边 都 是 有 符号 数 ， 或 者 都 是 无 符号 数 ， 那 么 较 低 Rank 的 类 型 转换 成 较 
高 Rank 的 类 型 。 例如 unsigned int Mlunsigned long 做 算术 运算 时 都 转 成 unsigned 
longo 


b. 否则 ， 如 果 一 边 是 无 符号 数 男 一 边 是 有 符号 数 ， 无 符号 数 的 Rank 不 低 于 有 符号 数 
的 Rank， 则 把 有 符号 数 转 成 男 一 边 的 无 符号 类 型 。 例 如 unsignea long 和 int 做 算术 
运算 时 都 转 成 unsigned long, unsigned long 和 1ong 做 算术 运算 时 也 都 转 成 unsignea 


longo 


c. 剩 下 的 情况 就 是 : 一 边 是 无 符号 数 男 一 边 是 有 符号 数 ， 并 且 无 符号 数 的 Rank 低 于 有 
符号 数 的 Rank。 这 时 又 分 为 两 种 情况 ， 如 有 果 这 个 有 符号 数 类 型 能 够 覆盖 这 个 无 符号 
数 类 型 的 取 值 范围 ， 则 把 无 符号 数 转 成 男 一 边 的 有 符号 类 型 。 例 如 遵循 LP64 的 平台 

Funsigned int 和 1ong 在 做 算术 运算 时 都 转 成 long。 


d. 和 否则， 也 就 是 这 个 符号 数 类 型 不 足以 覆盖 这 个 无 符号 数 类 型 的 取 值 范围 ， 则 把 两 边 
都 转 成 两 者 之 ! 较 高 Rank 的 无 符号 类 型 。 例如 遵循 ILP32 的 平台 上 unsignea 
int 和 1ong 在 做 算术 运算 时 都 转 成 unsignea longo 


可 见 有 符号 和 无 符号 整数 的 转换 规则 是 十 分 复杂 的 ， 虽然 这 是 有 明确 定义 的 ， 不 属于 阴暗 角 
We, 但 为 了 程序 的 可 读 性 ， 不 应 该 依赖 这 些 规则 来 写 代码 。 我 讲 这 些 规则 ， 不 是 为 了 让 你 用 
的 ， 而 是 为 了 让 你 在 出 错时 更 容易 分 析 错 误 原 因 ， 所 以 这 些 规则 不 需要 记 住 ， 但 要 知道 有 这 人 么 
回 事 ， 以 便 用 到 的 时 候 能 找到 这 一 段 。 


到 目前 为 止 我 们 学 过 的 + -*/ 96 > < >= <= == != 运 算 符 都 需要 做 Usual Arithmetic Conversion, 
因为 都 要 求 两 边 操作 数 的 类 型 一 致 ， 在 下 一 章 会 介绍 几 种 新 的 运算 符 也 需要 做 Usual Arithmetic 
Conversion。 单 目 运 算 符 + - ~ 只 有 一 个 操作 数 ， 移 位 运算 符 << >> 两 边 的 操作 数 类 型 不 要 求 


致 ， 这 些 运算 不 需要 做 Usual Arithmetic Conversion, ， 但 也 需要 做 Integer Promotion ， 运 算 符 ~ 
<< >> 将 在 下 一 章 介绍 。 


3.3. 由 赋值 产生 的 类 型 转换 


如 果 赋 值 或 初始 化 时 等 号 两 边 的 类 型 不 相同 ， 则 编译 圳 会 把 等 号 右边 的 类 型 转换 成 等 号 左边 的 
类 型 再 做 赋值 。 例 如 int c = 3.14; ， 编 译 需 会 把 右边 的 double 型 转 成 int 型 再 赋 给 变量 c。 


我 们 知道 ， 函 数 调用 传 参 的 过 程 相当 于 定义 形 参 并 有 旦 用 实 参 对 其 做 初始 化 ， 函 数 返 回 的 过 程 相 
当 于 定义 一 个 临时 变量 并 且 用 return 的 表达 式 对 其 做 初始 化 ， 所 以 由 赋值 产生 的 类 型 转换 也 适 
用 于 这 两 种 情况 。 例 如 一 个 函数 的 原型 是 int foo(int, int); ， 则 调用 foo(3.1，4.2) 时 会 自动 
把 两 个 aoub1le 型 的 实 参 转 成 int 型 赋 给 形 参 ， 如 果 这 个 函数 定义 1! 有 返回 语句 return 14275 则 返 
回 值 1 .2 会 自动 转 成 int 型 再 返回 。 


在 函数 调用 和 返回 过 程 中 发 生 的 类 型 转换 往往 容易 被 忽视 ， 因 为 函数 原型 和 函数 调用 并 没有 写 
在 一 起 。 例如 char c = getchar();, 看 到 这 一 句 ， 往往 想当然 地 认为 getchar 的 返回 值 是 char 型 
的 ， 而 事实 上 setchar 的 返回 值 是 int 型 的 ， 这 样 赋值 会 引起 一 个 类 型 转换 ， 我 们 以 后 会 详细 解 
释 使 用 这 个 函数 需要 注意 的 问题 。 





















































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































3.4. 强制 类 型 转换 


以 上 三 种 情况 通称 为 隐 式 类 下 
一 套 规 则 将 一 
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符 (Cast Operator) 


Conversion) 或 强 
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的 (aouble) 就 是 一 个 类 型 转换 运算 符 ， 这 种 运算 
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3.5. 编译 需 如 何 处 理 类 


哪些 








E 











Hr] 


制 类 
然后 和 整 ? 




















动 转换 为 男 一 种 类 型 。 











除 此 之 外 ， 程 序 员 也 可 
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型 转换 (Type 


直 要 转换 成 


型 变量 ; 








可 种 类 型 ， 这 称 为 显 式 类 型 
。 例 如 计算 表达 式 (double) 3 
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3. 精度 是 N 的 浮 点 数 类 型 
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这 两 种 类 型 


在 两 种 类 型 之 间 做 转换 ， 转 换 纤 

















J 之 间 的 转换 具 


本 怎么 做 则 是 本 市 的 内 容 。 
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转换 ， 并 且 明 确 了 每 种 情况 下 应 该 # 
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I 转换 (Explicit 
这 时 适用 Usual Arithmetic Conversion 规 则 ， 首 


型 名 加 () 括 号 组 成 ， 后 面 的 3 
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不 包含 端点 ， 用 [括号 表示 闭 区 间 ， 
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么 定义 呢 ? 我 








围 至 少 应 该 覆盖 (-2N-1, 2N-1) 之 间 的 
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按 2's Complement 表 示 法 的 取信 范 














围 是 [-128, 127] ， 也 可 

















儿 数 ， 所 以 这 种 类 型 的 精度 是 8。 
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围 是 [0, 2N-1]. 
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discard m.s. M- 


bits (can overfl 


if (X < 2N-1) same 


value else impl.-def. 


(can overflow) 


if (|X| < 2N-1) 


trunc(X) else imple.- 
. (can overflow) 


if (0 <= X) X 96 
else impl.-def. 


为 X) 转换 成 



































N == M 的 情况 


N 
ow) 


if (X « 2N-1) same 
wake else impl.-def. 
(can overflow) 


if (|X| < 2N-1) 
trunc(X) else imple.- 
def. (can overflow) 


if (|X| < 










if (0 <= X) same 
value else X + 2N 


oN if (0 <= 


SD NEUE a (-2N-1, 2N-1) 的 整数 值 
个 精度 是 N 的 类 型 ， 所 有 可 能 的 情况 如 下 表 所 


value else X + 2N 

















N > M 的 情况 


same value same value 


same value 


a) 


trunc(X) else imple.- 
def. (can overflow) 







X) same 


same value same value 


if (0 <= X < 2N) if (0 <= X « 2N) if (0 <= X < 2N) 
trunc(X) else imple.- trunc(X) else imple.- |trunc(X) else imple.- 
def. (can overflow) — |def. (can overflow) def. (can overflow) 


keep sign, keep m.s. same value same val 
N-1 bits j d 


+ Sign, keep m.s. N- |+ sign, keep m.s. N- 
1 bits 1 bits 


keep m.s. N-1 bits 


(can overflow) elite veli same value 

















上 表 中 的 一 些 缩写 说 明 如 下 : impl.-def. 表 示 Implementation-defined ; m.s. bit 表 示 Most 

Significant Bit，trunc(X) 表 示 取 X 的 整数 部 分 ， 即 Truncate Toward Zero; X% Y 就 是 取 模 ， 上 
表 用 到 取 模 运算 时 X 和 Y 都 是 正 整 EM 同样 地 ， 这 个 表 不 是 为 了 让 你 故意 去 用 的 ， 而 是 为 了 让 
你 出 错时 分 析 错 误 原 因 的 。 


下 面 举 几 个 例子 说 明 这 个 表 的 用 法 。 than: 把 float 型 转 short 型 5 对 应 表 1 的 Eloating-point 
to signed integer ^ fT, uj 以 看 到 ， 不 管 两 种 类 型 的 精 ) 度 如 何 ， 处 理 方式 是 一 样 的 ， 如 
果 float 类 型 的 值 在 (-32768.0, 32768.0) 之 间 ， 则 截 掉 小 数 部 分 Mat 可 以 了 ， 如 果 float 类 型 的 值 
则 转换 结果 是 未 明确 定义 的 ， 有 可 能 会 产生 溢出 ， 例 如 对 于 short s = 


32768.4; 这 个 语句 gcc 会 报警 告 。 
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再 比如 把 int 类 型 转换 成 unsignea short 类 型 ， 对 应 表 中 的 signed integer to unsigned 
integer 一 行 ， 如 果 int 类 型 的 值 是 正 的 ， 则 把 它 除 以 216 取 模 ， 其 实 就 是 取 它 的 低 16 位 ， 如 
果 int 类 型 的 值 是 负 的 ， 则 转换 结果 是 未 明确 定义 的 。 


A int 类 型 转换 成 short 类 型 ， 对 应 表 中 的 第 一 行 signed integer to signed integer, 
把 int 类 型 值 的 高 16 位 丢掉 (这 里 的 m.s. 包 括 符 号 位 在 内 ， 上 表 中 另外 几 处 提 到 的 m.s. 应 该 是 不 
算 符 号 位 在 内 ) ， 只 留 低 16 位 ， 这 种 情况 也 有 可 能 溢出 ， 例 如 对 于 short s = -32769; 这 个 语 


何 gcc 会 报警 告 ; 而 对 于 short s = -32768; 则 不 会 报警 告 。 


后 一 个 例子 ， 把 short 型 转换 成 int 型 ， 仍然 对 应 表 第 一 行 ， 转换 之 后 应 该 是 same valueo 
那 怎么 维持 值 不 变 呢 ? 是 不 是 在 高 位 补 16 个 0 就 行 了 呢 ? 如 果 short 型 的 值 是 -1， 按 补 码 表示 就 
是 十 六 进 制 ff， 要 转 成 int 型 的 -1 需要 变 成 ffffffff， 因此 需要 在 高 位 补 16 个 1 而 不 是 16 个 0。 Ti] 
话说 ， 要 维持 值 不 变 ， 在 高 位 补 1 还 是 补 0 取 决 于 原来 的 符号 位 ， 这 称 为 符号 扩展 (Sign 
Extension) 。 
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2. 浮 点 型 第 16 章 运算 符 详 解 











2.124 "S 

2.2. 条 件 运 

2.3. 逗号 运 

2.4. sizeof 运 与 typedef 类 型 声 昌 
3. Side Effect 与 Sequence Point 
4. 运算 符 总 结 





本 章 介绍 很 多 前 面 没 有 讲 过 的 运算 符 ， 重 点 是 位 运算 ， 然 后 引出 一 个 重要 的 概念 Sequence 
Point ， 最 后 总 结 一 下 各 种 运算 符 的 优先 级 和 结合 性 。 


1. 355 


第 16 章 运算 符 详解 





1. 位 运算 


整数 在 计算 机 中 用 二 进 制 的 位 来 表示 ，C 语 言 提 供 一 些 运 算 符 可 以 直接 操作 整数 中 的 位 ， 称 为 位 
运算 ， 这 些 运算 符 的 操作 数 都 必须 是 整 型 的 。 在 以 后 的 学 习 中 你 会 发 现 ， 很 多 信息 利用 整数 
的 某 儿 个 位 来 存储 ， 要 访问 这 些 位 ， 仪 仅 有 对 整数 的 操作 是 不 够 的 ， 必 须 借 助 位 运算 ， 例 
如 第 2 和 “Unicode 和 UTF-8" 介 绍 的 UTF-8 编 码 就 是 如 此 ， 学 完 本 忆 之 后 ， 你 应 该 能 目 己 写 
出 UTF-8 的 编码 和 人 解码 程序 。 本 市 首先 介绍 各 种 位 运算 符 ， 然后 介 绍 位 运算 的 各 种 编程 技巧 。 


1.1. 按 位 与 、 或 、 异 或 、 取 肥 运 算 


在 第 3 5 “布尔 代数 " 讲 过 逻辑 与 、 或 、 非 运算 ， 并 列 出 了 真 值 表 ， 对 于 整数 中 的 位 也 可 以 做 
a 或 、 非 运算 ，C 语 言 提 供 了 按 位 与 (Bitwise AND) 运算 符 &、 按 位 或 (Bitwise OR) 35 

oo (Bitwise NOT) 运算 各 符 ~， 此 外 还 有 按 位 异 或 (Bitwise XOR) 运算 符 ^， 我 们 
在 和 “为 什么 计数 " 讲 过 异 或 运算 。 下 面 用 二 进 制 的 形式 举 几 个 例子 。 













































































































































































































































































































































































































































































图 16.1. 位 运算 


00000011 00000011 00000011 
& 00000101 | 00000101 ^ 00000101 ~ 11111100 
00000001 00000111 00000110 00000011 






























































TER, & |. NER At aes {Usual Arithmetic Conversion 的 ，~ 运 算 符 也 要 做 Integer 
Promotion， 所 以 在 C 语 言 中 其 实 并 不 存在 8 位 整数 的 位 运算 ， 操 作 数 在 做 位 运算 之 前 都 至 少 被 提 
升 为 int AT. 上 面 用 8 位 整数 举例 只 是 为 了 书写 方便 。 比 如 : 





































































































‘unsigned char c = Oxfc; 
‘unsigned int i = ~c; 









































计算 过 程 是 这 样 的 : 常量 0xfc 是 int 型 的 ， 赋 给 -要 转 成 unsignea char ， 值 不 变 ，c 的 十 六 进 制 表 
示 就 是 C， 计 算 -- 时 先 提 升 为 整 型 (000000fc) 然后 取 反 ， 最 后 结果 是 ffffff03 。 注 意 ， 如 果 
把 ~c 看 成 是 8 位 整数 的 取 反 ， 最 后 结果 就 得 3 了 ， 这 就 错 了 。 为 了 避免 出 钳 ， 一 是 尽量 避免 不 同 
类 型 之 间 的 赋值 ， 二 是 每 一 步 计算 都 要 按 上 章 讲 的 类 型 转换 规则 仔细 检查 。 


1.2. 移 位 运算 


移 位 运算 符 (Bitwise Shift) 包括 左 移 << 和 右 移 >>。 左 移 将 一 个 整数 的 各 二 进 制 位 全 部 左 移 若干 
位 ， 例 如 0xcfffffff3<<2 得 到 0x3fffffcc : 
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图 16.2. 左 移 运算 








11001111111111111111111111110011 
<< 2 


00111111111111111111111111001100 






































最 高 两 位 的 11 被 移出 去 了 ， 最 低 两 位 又 补 了 两 个 0， 其 它 位 依次 左 移 两 位 。 但 要 注意 ， 移 动 的 位 
BUY 须 小 于 左 操作 数 的 总 位 数 ， 比 如 上 面 的 例子 ， 左 边 是 unsigneq int 型， 如 果 左 移 的 位 数 大 
于 等 于 32 位 ， 则 结果 是 Undefined 的 。 


一 下 第 2 节 “ 不 同 进 制 之 间 的 换算 " 讲 过 的 知识 可 以 得 出 结论 ， 在 一 定 的 取 值 范围 内 ， 将 一 
oe crine ry ic aes (十 进 制 3) 左 移 一 位 变 成 110 ， 就 是 6， 再 左 移 一 
位 变 成 1100， 就 是 12。 读 者 可 以 验证 这 条 规律 对 负数 也 成 立 。 当 然 ， 如 果 左 移 改 变 了 符号 位 ， 
或 者 最 高 位 是 1 被 移出 去 了 ， 那么 结果 肯定 不 是 乘 以 了 ， 所 以 我 说 “在 一 定 的 取 值 范围 内 "”。 由 于 
计算 机 做 移 位 比 做 乘法 快 得 多 ， 编 译 器 可 以 利用 这 一 点 做 优化 ， 比 如 看 到 源 代 码 中 有 i * 8， 可 
以 编译 成 移 位 指令 而 不 是 乘法 指令 。 


当 操作 数 是 无 符号 数 时 ， 右 移 运 算 的 规则 和 左 移 类 似 ， 例 如 0xcfffffff3>>2 得 到 0x33fffffc : 














































































































































































































图 16.3. GZS 


11001111111111111111111111110011 


>> 2 





00110011111111111111111111111100 



































最 低 两 位 的 11 被 移出 去 了 ， 最 高 两 位 义 补 了 两 个 0， 其 它 位 依次 石 移 两 位 。 和 左 移 类 似 ， 移 动 的 
位 数 也 必须 小 于 左 操作 数 的 总 位 数 ， 否 则 结果 是 Undefined 的 。 在 一 定 的 取 值 范围 内 ， 将 一 个 整 
数 右 移 1 位 相当 于 除 以 2， 小 数 部 分 Mis. 
当 操作 数 是 有 符号 数 时 ， 右 移 运 算 的 规则 比较 复杂 : 


。 如 果 是 正 数 ， 那 么 高 位 移入 0 










































































© 如 果 是 负数 ， 那 么 高 位 移入 1 还 是 0 不 一 定 ， 这 是 Implementation-defined 的 。 对 于 x86 平 台 
的 gcc 编 译 圳 ， 最 高 位 移入 1， 也 就 是 仍 保持 负数 的 符号 位 ， 这 种 处 理 方式 对 负数 仍然 保持 
了 “ 右 移 1 位 相当 于 除 以 2” 的 性 质 。 


综 上 所 述 ， 由 于 类 型 转换 和 移 位 等 问题 ， 使 用 有 符号 数 做 位 运算 是 很 不 方便 的 ， 所以， 建议 只 
对 无 符 写 数 做 位 运算 ， 以 减少 出 错 的 可 能 





















































习题 





、 下 面 两 行 printf 打 印 的 结果 有 何不 同 ? 请 读者 比较 分 析 一 下 。 
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(Mask) 来 表示 ， 比 如 掩 码 0x0000ff00 表 示 对 一 个 32 位 整数 的 8~15 位 进行 操作 ， 举 例如 下 。 
1、 取 出 8~15 位 。 


: unsigned int a, b, mask = O0x0000ff00; 
:a = 0x12345678; 
'b = (a & mask) >> 8; /* 0x00000056 */ 











这 样 也 可 以 达到 同样 的 效果 : 





















: unsigned int a, b, mask = 0x0000ff00; 
ia = 0x12345678; 
ib = a & «mask; /* 0x12340078 */ 


3. 148-1557 4. 





‘unsigned int a, b, mask = 0x0000ff00; 
:a = 0x12345678; 
:b= a | mask; /* 0x1234ff78 */ 





1.4. 异 或 运算 的 一 些 特性 


1、 一 个 数 和 自己 做 异 或 的 结果 是 0。 如 果 需 要 一 个 常数 0，x86 平 台 的 编译 器 可 能 会 生成 这 样 的 
HS: xorl seax，seax。 不 管 eax 寄 存 器 里 的 值 原来 是 多 少 ， 做 异 或 运算 都 能 得 到 0， 这 条 指 今 
比 同样 效果 的 mov1 so，seax 指 令 快 。 


2、 从 异 或 的 真 值 表 可 以 看 出 ,不 管 是 0 还 是 1， 和 0 做 异 或 值 不 变 ， 和 1 做 异 或 得 到 原 值 的 相反 
值 。 可 以 利用 这 个 特性 配合 掩 码 实现 某 些 位 的 翻转 ， 例 如 : 























































































































































































































unsigned ant a, b, mask 0. 
ia = 012345678; 
pi) = a S Weise S Geile tbe 6b d = 























3. Way ^az^a3s^.…^an 的 结果 是 1， 则 表示 al 、a2、as3.….an 之 中 1 的 个 数 为 奇数 个 ， 否 则 
为 偶数 个 。 这 条 性 质 可 用 于 奇偶 校 验 (Parity Check) ， 比 如 在 串口 通信 过 程 中 ， 每 个 字 节 的 数 
据 都 计算 一 个 校 验 位 ， 数 据 和 校 验 位 一 起 发 送出 去 ， 这 样 接收 方 可 以 根据 校 验 位 粗略 地 判断 接 
收 到 的 数据 是 否 有 误 。 


4. x^x^y == y， 因 为 x^Xx== 0,，0^y==y。 这 个 性 质 有 什么 用 呢 ? 我们 来 看 这 样 一 个 问题 : 
交换 两 个 变量 的 值 ， 不 得 借助 于 额外 的 存储 空间 ， 所 以 就 不 能 采用 temp = a; a = bi b= 
temp; 的 办 法 了。 利用 位 运算 可 以 这 样 做 交换 : 
































































































































































































































分 析 一 下 这 个 过 程 。 为 了 避免 混淆 ， 把 a 和 b 的 初 值 分 别 记 为 a0 和 bo。 第 一 行 ，。- ao ^ bo; 第 
二 行 ， 把 a 的 新 值 代入 ， 得 到 。- bo > ao ”bo， 等 号 右边 的 bo 相当 于 上 面 公式 中 的 x，ao 相 当 
于 y， 所 以 结果 为 ao; 第 三 行 ， 把 a 和 b 的 新 值 代入 ， 得 到 a。- a。^b。^ao， 结 果 为 bo。 
































































































































1、 请 在 网 上 查找 有 关 RAID (Redundant Array of Independent Disks ， 独 立 磁盘 元 余 阵 列 ) 的 
资料 ， 理 解 其 实现 原理 ， 其 实 就 是 利用 了 本 节 的 性 质 3 和 4。 
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2.1. 复合 赋值 运算 符 


复合 赋值 运算 符 (Compound Assignment Operator) 包括 *= /= $= += -= <<= >>= &- ^- |=, 在 
赋值 的 同时 做 一 个 运算 。 例 如 a += 1 相当 于 a = a + 1。 但 有 一 点 细微 的 区 别 ， 前 者 对 表达 
式 a 只 求 值 一 次 ， 而 后 者 求 值 两 次 ， 如 果 a 是 一 个 复杂 的 表达 式 ， 求 值 一 次 和 求 值 两 次 的 效率 是 
不 同 的 ， 例 如 afi+jl += 1 和 afi+jl = a[i+j] + 1。 仅 仅 是 效率 上 的 差别 吗 ” 对 于 没有 Side 
Effect 的 表达 式 ， 求 值 一 次 和 求 值 两 次 的 结果 是 一 样 的 ， 但 对 于 有 Side Effect 的 表达 式 则 不 一 
定 ， 例 如 arfeo()] += 1 和 arfoo0)] = alfoo()] + 1， 如 果 foo() 函数 调用 有 Side Effect， 比 如 
会 打印 条 消息 那么 前 者 只 打印 一 次 ， 而 后 者 打印 两 次 。 


在 第 3 节 “or 语句” 讲 自 增 、 自 减 运算 符 时 说 ++i 相 当 于 i = i + 1， 其 实 更 准确 地 说 应 该 是 等 价 
Fi += 1， 而 --i 等 价 于 i -= 1。 


2. 条 件 运算 符 







































































































































































































































































































































































条 件 运 算 符 (Conditional Operator) 是 C 语 言 中 唯 目 运 算 符 (Ternary Operator) , "F 
三 个 操作 数 ， 它 的 形式 是 表达 式 1 2 表达 式 2 : 表达 式 3， 这 个 运算 符 所 组 成 的 整个 表达 式 的 值 等 于 




















表达 式 2 或 表达 式 3 的 值 ， 取 决 于 表达 式 1 的 值 是 否 为 真 ， 可 以 把 它 想像 成 这 样 的 函数 : 






































2 m 表达 式 2， 








return 表达 式 3; 




















表达 式 1 相 当 于 if 语句 的 控制 表达 式 ， 因 此 它 的 值 必须 是 标量 类 型 ， 而 表达 式 2 和 3 相当 于 同一 个 
函数 在 不 同情 况 下 的 返回 值 ， 因 此 它们 的 类 型 要 求 一 致 ， 也 要 做 Usual Arithmetic Conversion. 


下 面 举 个 例子 ， 定 义 一 个 函数 求 两 个 参数 中 较 大 的 一 个 。 
SO cc 


T 































































































return (a > b) ? a: b; 


iy 





2.3. 1 5X5 NE 
逗号 运算 符 (Comma Operator) 也 是 一 种 双 目 运算 符 ， 它 的 形式 是 表达 式 1， 表 达 式 2 ， 两 个 表达 
式 不 要 求 类 型 一 臻 ， 左 边 的 表达 式 1 先 求 值 ， 求 完了 直接 把 值 丢 掉 ， 再 求 右 边 表达 式 2 的 值 作为 
整个 表达 式 的 值 。 豆 号 运算 符 是 左 结合 的 ， 类 似 于 +-*/ 运 算 符 ， 根 据 组 合 规则 可 以 写 出 表达 式 1,， 

表达 式 2， 表达 式 3，...， 表达 式 n 这 种 形式 ， 表达 式 1， 表达 式 2 可 [以 看 作 一 个 子 表达 式 ， 先 求 表达 

式 1 的 值 ， 然 后 求 表达 式 2 的 值 作为 这 个 子 表达 式 的 值 ， 然 后 这 个 值 再 和 表达 式 3 组 成 一 个 更 大 的 
表达 式 ， 求 表达 式 3 的 值 作为 这 个 更 大 的 表达 式 的 值 ， 依 此 类 推 ， 整个 计算 过 程 就 是 从 左 到 右 依 
次 求 值 ， 最 后 一 个 表达 式 的 值 成 为 整个 表达 式 的 值 。 
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传 给 函数 的 有 三 个 参数 ， 第 二 个 参数 的 值 是 表达 式 t+2 的 值 。 














2.4. sizeof 运 算 符 与 typedef 类 型 声明 























sizeof 是 一 个 很 特殊 的 运算 符 ， 它 有 两 种 形式 : sizeof 表达 式 和 sizeof( 类 型 名 ) 。 它 的 特殊 之 处 
在 于 ，sizeof 表达 式 中 的 表达 式 并 不 求 值 ， 只 是 根据 类 型 转换 规则 求 得 该 表达 式 的 类 型 ， 然 后 把 
这 种 类 型 所 占 的 字 市 数 作为 sizeof 表达 式 这 整个 表达 式 的 值 。 有 些 人 喜欢 写成 sizeof (RER) 的 
形式 也 可 以 ， 这 里 的 括号 和 return (1); 的 括号 一 样 ， 没 有 任何 作用 。 但 另外 一 种 形式 sizeof (类 
型 名 ) 的 括号 则 是 必须 写 的 ， 整 个 表达 式 的 值 也 是 这 种 类 型 所 占 的 字 市 数 。 


比如 用 sizeof 运 算 符 求 个 数组 的 长 度 : 




























































































































































































piae all be Ii 
| printf ("%Sd\n", sizeof a/sizeof a[0]); 





































































































在 上 面 这 个 例子 中 ， 由 于 sizeof 表达 式 中 的 表达 式 不 需要 求 值 ， 所 以 不 需要 到 运行 时 才 计 算 ， 事 
XE, 在 编译 时 就 知道 sizeof a 的 值 是 48， sizeof a[0] 的 值 是 4， 所 以 在 编译 时 就 已 经 
把 sizeof a/sizeof ato] 蔡 换 成 常量 12 了 , 这 是 一 个 常量 表达 式 。 


准确 地 说 ，sizeof 表 达 式 的 值 是 size t 类 型 的 ， 这 个 类 型 定义 在 staqef.n 头 文件 中 ,不 过 你 的 代 
码 中 只 要 不 出 现 size_t 这 个 类 型 名 就 不 用 包含 这 个 头 文 件 ， 比 如 像 上 面 的 例子 就 不 用 包含 这 个 
头 文件 。sizet 这 个 类 型 是 我 们 讲 过 的 整 型 中 的 某 一 种 ， 编 译 需 可 能 会 用 rypedef 做 一 个 类 型 声 
























































































































































































































































那么 size t 类 型 就 是 unsi gned 1 ong 类 型 o 之 所 以 不 直接 规定 sizeof 的 值 是 unsi gned 1] ong 型 的 

而 要 规定 个 size_t 类 型 ， 是 为 J 人 允许 不 同 ET HERR Rd E pi I 的 情况 定义 size_t 为 不 同 的 类 
型 ， 这 样 使 用 size_t 类 型 的 代码 就 具有 很 好 的 可 移植 性 ， 但 不 管 编译 器 怎么 实现 ，C 标 准 明确 规 
定 sizeof 的 值 是 无 符号 整 型 的 。 


typedef 这 个 关键 字 用 于 给 一 个 类 型 起 个 新 的 名 字 上 面 的 声明 可 以 这 么 看 : zx 挥 typedef 就 成 了 
一 个 变量 声明 unsi gned long size_t;, size _t 是 一 个 变量 名 类 QU I unsi gned long, 那么 加 
-上 typedef 之 后 ; size_t 就 是 一 个 类 型 名 ; 就 代表 unsi gned 1] ong 类 型。 再 举 个 例子 : 
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‘typedef char array t[10]; 
: array t a; 

















就 相当 于 定义 cnar ar[101;。 类 型 名 也 遵循 标识 符 的 命名 规则 ， 并 且 通 党 加 个 上 上 后缀， 表 
示 Type。 














Fn 





3. Side Effect Sequence Point 


3. Side Effect Sequence Point 
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WHR RAL HS URS, ABZ SEA ANG AIX ZRUSBUALAGE EE AARI 
的 ， 除 了 Short-circuit 比 较 实 用 ， 其 它 写 法 邦 应 该 避免 使 用 。 但 没 办 法 ， 有 了 时候 不 是 你 想 钻 牛 角 
尖 儿 ， 而 是 有 人 逼 你 去 外 牛角 尖 儿 。 这 是 我 们 的 学 员 在 找 工 作 笔 试 时 碰 到 的 问题 : 















































































































































‘aint ases 























据 我 了 解 ， 似 乎 很 多 公司 都 有 出 这 种 笔试 题 的 恶 趣味 。 答 案 应 该 是 Undefined， 我 甚至 有 些 怀 疑 
出 题 的 人 是 否 真 的 知道 答案 。 下 面 我 来 解释 为 什么 是 Undefined。 


我 们 知道 ， 调 用 一 个 函数 可 能 产生 Side Effect， 使 用 某 些 运算 符 (++、--、=、 复 合 赋值 ) 也 会 

产生 Side Effect， 如 果 一 个 表达 式 中 隐 含 着 多 个 Side Effect , PESO i sie 发 生 

呢 ?C 标 准 规定 代码 执行 过 程 中 的 某 些 时 刻 是 Sequence Point, 当 到 达 一 个 Sequence 
Point 时 ， 在 此 之 前 的 Side Effect 必 须 全 部 作用 完毕 ， 在 此 之 后 的 Side Effect 必须 一 个 都 没 发 
生 。 至 于 两 个 Sequence Point 之 间 的 多 个 Side Effect 哪个 先 发 生 哪个 后 发 生 则 没有 规定 ， 编 译 
锋 可 以 任意 选择 各 Side Effect 的 作用 顺序 。 下 面 详 细 解 释 各 种 Sequence Point (1H 

自 [C99] 的 Annex C) 。 


1、 调 用 一 个 函数 时 ， Pilg gen tees 函数 调用 开始 之 前 是 Sequence Point。 比 如 调 
用 foo(f0，g(0) 时 ，tce、f(0、g(0 这 三 个 表达 式 哪 个 先 求 值 哪个 后 求 值 是 Unspecified ， 但 是 
必须 都 求 值 完了 才 能 做 最 后 fe RNC, 所 以 E0 Ma o 的 Side Effect 按 什么 顺序 发 生 不 一 定 ， 但 
必定 在 这 些 Side Effect 全 部 作用 完 之 后 才 开 始 调 用 too 函数 。 











































































































































































































































































































































































































、 条 件 表达 式 ?:、 妈 号 运算 符 ,、 逻 辑 与 &&、 人 逻辑 或 || 的 第 一 个 操作 数 求 值 之 后 是 Sequence 
E 我 们 刚 讲 过 条 件 表达 式 和 逗号 运算 符 ， 条 件 表达 式 要 根据 表达 式 1 的 值 是 否 为 真 决定 下 一 
步 求 表达 式 2 还 是 表达 式 3 的 值 ， 如 果 决 定 求 表达 式 2 的 值 ， 表 达 式 3 就 不 会 被 求 值 了 ， 反 之 也 一 
样 ， 喜 号 运算 符 也 是 这 样 ， 表 达 式 1 求 值 结束 才 继 续 求 表达 式 2 的 值 。 


逻辑 与 和 逻辑 或 早 在 第 3 T SECU 了 ， 但 在 初学 阶段 我 一 直 回 吉它 们 的 操作 数 求 值 顺 
序 的 问题 。 xD NEAR Saeed 先 求 元 操作 数 的 值 ， 然 后 根据 
























































































































































































































































































































































右 操 作 数 可 能 被 求 值 ， 也 可 能 不 被 求 值 。 比 如 例 8.5“ 剪 刀 石 头 布 " 这 个 程序 中 的 这 
ret = scant’ "sd", oman) e 
Mrs (ret != 1 | man < 0 | man > 2) { 
: printf("Invalid input! Please input 0, 1 or 2.\n"); 
: continue; 
i} 






























































其 实 可 以 写 得 更 简单 〈([K&R] 书 上 的 代码 风格 就 是 这 样 ) : 


DUE (scanf("$d", &man) != 1 | | man < 0 | | man > 2) { 

jowesbewe:s (Yinowwvellacl imove! Please impone @, i gu 2. yate 
: continue; 

P 



































这 个 控制 表达 式 的 求 值 顺序 是 : 先 求 scanf ("sa", &man) = 1 的 值 ， 如 果 scanf 调 用 失败 ， 则 返 
































值 不 等 于 1 成 立 ，|| 运 算 有 一 个 操作 数 为 真 则 整个 表达 式 为 真 ， 这 时 直接 执行 下 一 句 printf， 根 
本 不 会 再 去 求 man < 0 或 man > 2 的 值 ; 如 果 scanf 调 用 成 功 ， 则 读 入 的 数 保 存在 变量 man 中 ， 并 
且 返 回 值 等 于 {， 那 么 说 它 不 等 于 1 就 不 成 立 了 ， 第 一 个 | 运算 的 左 操 作 数 为 假 ， 就 会 去 求 右 操 作 
数 man < 0 的 值 作 为 整个 表达 式 的 值 ， 这 时 变量 man 的 值 正 是 scanf 读 上 来 的 值 ， 我 们 判断 它 是 否 
在 [0, 2] 之 间 ， 如 果 man < 0 不 成 立 ， 则 整个 表达 式 scanf "sa", sman) != i || man < o 的 值 为 
假 ， 也 就 是 第 二 个 || 运 算 的 左 操作 数 为 假 ， 所 以 最 后 求 右 操 作 数 man > 2 的 值 作为 整个 表达 式 的 
值 。 


&& 运 算 与 此 类 似 ，a «s pb 的 计算 过 程 是 : 首先 求 a8， 如 果 a 的 值 是 假 则 整个 表达 式 的 值 是 假 ， 

如 果 a 的 值 是 真 ， 则 下 一 步 求 bp 的 值 作为 整个 表达 式 的 值 。 所 以 ，a ss o 
而 a || b 相 当 于 “if (la) b;”。 这 种 特性 和 尔 为 Short-circuit， 很 多 人 喜欢 利用 Short- 

eicit 性 使 代码 更 加 简 清 。 


3、 在 一 个 完整 的 声明 末尾 是 Sequence Point ， 所 谓 完整 的 声明 是 指 这 个 声明 不 是 另外 一 个 声明 
的 一 部 分 。 比 如 声明 int ar101]，bfr201; ， 在 a[101 末 尾 是 Sequence Point， 在 bf201 末 尾 也 是 。 











































































































































































































































































































4、 在 一 个 完整 的 表达 式 末尾 是 Sequence Point, E E Te 
个 表达 式 的 一 部 分 。 所 以 如 果 有 f O; g() ;这 样 两 条 语句 ，f () 和 gs () 是 两 个 完整 的 表达 
式 ，f(0 的 Side Effect 必定 在 O0 之 前 发 生 。 


5、 在 库 函 数 返 回 时 是 Sequence Point。 这 似乎 可 以 包含 在 上 一 条 规则 里 面 ， 因 为 函数 返回 必然 
会 结束 掉 一 个 表达 式 ， 开 始 一 个 新 的 表达 式 。 事 实 上 以 后 我 们 会 SAI, 很 多 库 函 数 是 以 宏 定义 
的 形式 实现 的 ， 并 不 是 真 的 函数 ， 所 以 才 需 要 有 这 条 规则 。 


6、 像 printf、scanf 这 种 带 转 换 说 明 的 输入 /输出 库 函 数 ， 在 处 理 完 每 一 个 转换 说 明 相 关 的 输 
入 /输出 操作 时 是 一 个 Sequence Point。 


7、 库 函 数 psearch 和 gqsort 在 查找 和 排序 过 程 中 的 每 一 步 比较 或 移动 操作 之 间 是 一 个 Sequence 
Point。 


现在 可 以 分 析 一 下 本 节 开 头 的 例子 了 。a = (a) (830) (30 (tta); 的 结果 之 所 
以 Undefined， 是 因为 在 这 个 表达 式 中 对 变量 a 的 Side Effect 有 五 次 ， 这 些 Side Effect 何 时 发 生 、 
按 什么 顺序 发 生 是 不 一 定 的 ， 只 知道 在 整个 表达 式 结束 时 一 定 都 发 后 了 ， 但 在 计算 过 程 中 要 用 
到 a 的 值 时 ， 能 取出 什么 值 就 不 确定 了 。 这 行 代码 用 不 同 平台 的 不 同 编译 器 来 编译 ， 结 果 是 不 同 
的 ， 甚至 在 同一 平台 上 用 同一 编译 需 的 不 同 版 本 来 编译 也 可 能 不 同 。 


写 表 达 式 应 遵循 的 原则 一 : 在 两 个 Sequence Point 之 间 ， 同 一 个 变量 的 值 只 允许 被 改变 一 次 。 
DUBIE IRIE AG 例如 ari++] = i; 的 变量 i 只 改变 了 一 次 ， 但 结果 仍 是 Undefined， 因 为 
号 左边 改 i 的 值 ， 等 号 右边 读 i 的 值 ， 到 底 是 先 改 还 是 先 读 ? ,这 个 读 号 顺序 是 不 确定 的 。 但 为 
i=si+l; eT 虽然 也 是 等 号 左边 改 i 的 值 ， 等 号 右边 恋 i 的 值 ， 但 你 不 读 出 i 的 
值 就 没 法 计算 1 + 1， 那 拿 什 么 去 改 i 的 值 呢 ? ere eras 所 以 ， 写 表达 式 应 
遵循 的 原则 二 : 如 AEM Sequence Point 之 间 既 要 读 一 个 变量 的 值 又 要 改 它 的 值 ， 只 有 在 读 
写 顺序 确定 的 情况 下 才 可 以 这 么 写 
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4. 运算 符 总 结 y= 


第 16 章 运算 符 详解 








4. id E 总 结 


到 此 之 止 ， 除 了 和 指针 相关 的 运算 符 还 没 讲 之 外 ， 其 它 运算 符 都 讲 过 了 ， 是 时 候 做 一 个 总 结 
了 。 


运算 符 + -*/%><>=<===!=&|^ 以 及 各 种 复合 赋值 运 符 要 求 两 边 的 操作 数 类 型 一 致 ， 
牛 运算 符 ?: 要 求 后 两 个 操作 数 类 型 一 致 ， 这 些 运 算 符 在 计算 之 前 都 需要 做 Usual Arithmetic 
Conversion. 


下 面 按 优先 级 从 高 到 低 的 顺序 总 结 一 下 各 种 运算 符 ， 每 一 条 所 列 的 各 运算 符 具 有 相同 的 优先 
级 ， 对 于 同一 优先 级 的 多 个 运算 符 按 什么 顺序 计算 也 有 说 明 ， 双 目 运算 符 就 简单 地 用 “ 左 结 
合 " 或 “ 右 结合 "来 说 明 了。 和 指针 有 关 的 运算 符 * & -> 也 在 这 里 列 出 来 了 ， 以 后 再 详细 解释 。 


1、 标 识 符 、 常 量 、 字 符 串 和 用 () 括 号 套 起 来 的 表达 式 是 组 成 表达 式 的 最 基本 单元 ， 在 运算 中 做 
操作 数 ， 优 先 级 最 高 。 


2. Just 包括 数组 取 下 标 []、 函 数 调 用 ()、 结 构 体 取 成 员 .、 指 向 结构 体 的 指针 取 成 员 - 
>、 SAN, 后 绥 目 减 --。 如 采 一 个 操作 数 户 面 有 多 个 后 级 ， 按 照 离 操作 数 从 近 到 远 的 顺序 
(也 就 是 从 左 到 右 ) 依次 运算 ， 比如 a. name++， 先 算 a .name ， H+, 这 里 的 .name 应 该 看 成 a 的 
一 个 后 缀 ， 而 不 是 把 .看 成 双 目 运算 符 。 


3、 单 目 运算 符 ， 包 括 前 绥 自 增 ++、 前 绥 自 减 --、sizeof、 类 型 转换 ()、 取 地 址 运算 &、 指 针 间 接 
寻 址 *、 正 号 +、 负 号 -、 按 位 取 反 ~、 逻 辑 非 ! 。 如 果 一 个 操作 数 前 面 有 多 个 前 缀 ， 按 照 离 操作 数 
从 近 到 远 的 顺序 〈 也 就 是 从 右 到 左 ) KRR, EUa, A-a, FERL 


4、 乘 *、 除 /、 模 % 运 算 符 。 这 三 个 运算 符 是 右 结合 的 。 




















































































































































































































































































































































































































































































































































































































































































































































































































5、 加 +、 减 -运算 符 。 厂 结合 。 














6、 移 位 运算 符 << 和 >>。 右 结合 。 





















































8、 相 等 性 运算 符 == 和 !=。 右 结合 。 

9、 按 位 与 &。 右 结合 。 

10、 按 位 异 或 ^。 右 结合 。 

11、 按 位 或 |。 右 结合 。 

12、 人 逻辑 与 &&。 右 结合 。 

13、 逻 辑 或 ||。 右 结合 。 

14、 条 件 运算 符 :?。 在 第 2 节 “ifelse 语 句 ? 讲 过 Dangling-else 问 题 ， 条 件 运 算 符 也 有 类 似 的 问 


Ui. Pia 2 b: c ? d : e 是 看 成 (a ? b: c) 24a: e 还 是 a ? b : (c? d: e)? C 语 言 规 
定 是 后 者 。 


















































































































































15、 赋 值 = 和 各 种 复合 赋值 (+= /= s= + <<= >>= &= ^= |=) o EES. 
































16. SBR. BAG. 




















[K&R] 第 2 章 也 有 这 样 一 个 列表 ,但 是 对 于 结合 性 解释 得 非常 不 清楚 。 左 结合 和 右 结合 这 两 个 概 
念 应 该 只 对 双 目 运算 符 有 意义 。 对 于 前 级、 后 级 和 三 目 运 算 符 我 单独 做 了 说 明 。C 语 言 表达 式 的 
详细 语法 规则 可 以 参考 [C99] 的 Annex A.2， 其 实 语法 规则 并 不 是 用 优先 级 和 结合 性 这 两 个 概念 
来 表述 的 ， 有 一 些 细节 用 优先 级 和 结合 性 是 表达 不 了 的 ， 所 以 只 有 看 C99 才 能 了 解 完整 的 语法 规 
则 。 


习题 


1、 以 下 代码 查找 和 打印 0~1024 之 间 所 有 256 的 倍数 ， 对 吗 ? 

































































































































































: for (; i <= 1024; ++i) 

P 

ais (Lom Oxe == 0) 

| { 

ET 
: } 
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TA 
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现代 计算 机 都 是 基于 Von Neumann 体 系 结构 的 ， 不 管 是 租 入 式 系统 、PC 还 是 服务 器 。 这 种 体系 
结构 的 主要 特点 是 : CPU (CPU, Central Processing Unit ， 中 央 处 理 器 ， 或 简称 处 理 

















WrProcessor) 和 内 存 (Memory) 是 计算 机 的 两 个 主要 组 成 部 分 ， 内 存 中 保存 着 数据 和 指 
令 ，CPU 从 内 存 中 取 指 令 (Fetch) 执行 ， 其 中 有 些 指令 让 CPU 做 运算 ， 有 些 指 令 让 CPU 读 写 
内 存 中 的 数据 。 本 章 简要 介绍 组 成 计算 机 的 CPU、 内 存 、 设 备 以 及 它们 之 间 的 关系 ， 为 后 续 章 
节 的 学 习 打 下 基础 。 











1. 内 存 与 地 址 


我 们 都 见 过 像 这 样 挂 在 墙 上 的 很 多 个 邮箱 ， 每 个 邮箱 有 一 个 房间 编号 。 





图 17.1. 邮箱 的 地 址 





使 用 时 根据 房间 编号 找到 相应 的 邮箱 ， 人 然后 投入 信件 或 取出 信件 。 内 存 与 此 类 似 ， 每 个 存储 单 
元 有 一 个 地 址 (Address) ，CPU 通 过 地 址 找到 相应 的 存储 单元 ， 取 其 中 的 指令 ， 或 者 读 写 其 中 
的 数据 。 与 邮箱 不 同 的 是 ， 一 个 地 址 所 对 应 的 存储 单元 不 能 存 很 多 东西 ， 上 只 能 存 一 个 字 节 ， 所 
以 以 前 讲 过 的 int、f1oat 等 多 字 节 的 数据 类 型 保存 在 内 存 中 要 占用 多 个 地 址 ， 这 种 情况 下 把 起 
始 地 址 当 作 这 个 数据 的 地 址 。 


内 存 地 址 是 从 0 开始 编号 的 整数 ， 最 大 编 到 多 少 取决 于 CPU 的 地 址 空间 (Address Space) 有 多 


大 。 目 前 主流 的 处 理 器 是 32 位 或 64 位 的 ， 本 书 主 要 以 32 位 的 x86 平 台 为 例 ， 所 谓 32 位 就 是 指 地 
址 是 32 位 的 ， 从 0x0000 00002! Oxtfft fff. 














2. CPU 
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2. CPU 








CPU 总 是 周而复始 地 做 同一 件 事 : 从 内 存 取 指 令 ， 然 后 解释 执行 它 ， 然 后 再 取 下 一 条 指令 ， 再 
解释 执行 。CPU 包 含 以 下 功能 单元 : 


。 寄存 器 (Register) ， 是 CPU 内 部 的 高 速 存 储 器 ， 像 内 存 一 样 可 以 存 取 数 据 ， 但 比 访问 内 
存 快 得 多 。 我 们 马上 会 讲 到 x86 的 寄存 器 如 eax、ebpb、eip 等 等 ， 有 些 寄存 器 保存 的 数据 只 
能 用 于 某 种 特定 的 用 途 ， 比 如 eip 寄 存 器 用 作 程序 计 数 器 ， 这 称 为 特殊 寄存 器 (Special- 
purpose Register) ， 而 另外 一 些 寄存 器 保存 的 数据 可 以 用 在 各 种 运算 和 读 写 内 存 的 指令 
中 ， 比 如 eax 寄 存 器 ， 这 称 为 通用 寄存 髓 (General-purpose Register) 。 









































































































































Hei (PC, Program Counter) ,保存 着 CPU 取 指令 的 地 址 ， 每 次 CPU 读 出 程序 计 
数 器 中 保存 的 地 址 ， 然 后 按 这 个 地 址 去 内 存 中 取 指 令 ， 这 时 程序 计数 器 保存 的 地 址 会 自动 
加 上 该 指令 的 长 度 ， 指 向 内 存 中 的 下 一 条 指令 。 


程序 计数 器 通常 是 CPU 的 一 个 特殊 寄存 器 ，x86 的 程序 计数 器 是 特殊 寄存 器 sip ， 由 于 地 址 
是 32 位 的 ， 所 以 这 个 寄存 器 也 是 32 位 的 ， 事 实 上 通用 寄存 器 也 是 32 位 的 ， 所 以 也 可 以 说 处 
理 器 的 位 数 是 指 它 的 寄存 器 的 位 数 。 处 理 器 的 位 数 也 叫做 字 长 ， 字 (Word) 这 个 概念 用 
得 比较 混乱 ， 在 有 些 上 下 文中 指 16 位 ， 在 有 些 上 下 文中 指 32 位 (这 种 情况 下 16 位 被 称 为 半 
字 Half Word) ， 在 有 些 上 下 文中 指 处 理 器 的 字 长 ， 如 果 处 理 器 是 32 位 那么 一 个 字 就 

是 32 位 ， 如 果 处 理 器 是 64 位 那么 一 个 字 就 是 64 位 。 









































































































































































































































。 指令 解码 器 (Instruction Decoder) 。CPU 取 上 来 的 指令 由 若干 个 字 节 组 成 ， 这 些 字 节 
有 些 位 表示 内 存 地 址 ， 有 些 位 表示 寄存 器 编号 ， 有 些 位 表示 这 种 指令 做 什么 操作 ， 是 加 、 
减 、 乘 、 除 还 是 读 、 写 ， 指 令 解 但 髓 负责 解释 这 条 指令 的 含义 ， 然 后 调动 相应 的 执行 单元 

去 执行 它 。 











































































































mv 








。 算术 逻辑 单元 (ALU, Arithmetic and Logic Unit) 。 如 果 解 码 器 将 一 条 指令 解释 为 运算 # 
令 ， 就 调动 算术 逻辑 单元 去 做 运算 ， 比 如 加 减 乘除 、 位 运算 、 判 断 一 个 条 件 是 否 成 立 等 。 
运算 结果 可 能 保存 在 寄存 器 中 ， 也 可 能 保存 到 内 存 中 。 


地 址 和 数据 总 线 (Bus) 。CPU 和 内 存 之 间 用 地 址 总 线 、 数 据 总 线 和 控制 线 连接 起 

来 ，32 位 处 理 器 有 32 条 地 址 线 和 32 条 数据 线 [2 浊 ， 每 条 线 上 有 1 和 0 两 种 状态 ，32 条 线 的 状 
态 就 可 以 表示 一 个 32 位 的 数 。 如 果 在 执行 指令 过 程 中 需要 访问 内 存 ， 比 如 从 内 存 读 一 个 数 
到 寄存 器 ， 则 执行 过 程 可 以 想像 成 这 样 : 
































































































































































































































图 17.2. 访问 内 存 读数 据 的 过 程 

















1. CPUPJ HIME ar Fae TEI AGE, aE a IEE  DNOSEBERI — RB, SEDE 


接 








收 数据 。 











2. CPU 将 内 存 地 址 通过 地 址 线 发 给 内 存 ， 然 后 通过 男 外 一 条 控制 线 发 一 个 读 请 求 。 


3. 内 

















存 收 到 地 址 和 读 请 求 之 后 ， 将 相应 的 存储 单元 对 接 到 数据 总 线 的 男 一 端 ， 这 样 ， 





存 
数 


FEAL ES 





储 单元 每 一 位 的 1 或 0 状态 通过 一 条 数据 线 到 达 CPU 寄 存 器 中 相应 的 位 ， 就 完成 了 
据 传 送 。 








写 数据 的 过 程 与 此 类 似 ， 只 是 数据 线 上 的 传输 方向 相反 。 

















[24] 这 个 说 法 不 够 准确 ， 你 可 以 先 这 么 理解 ， 稍 后 在 介绍 MMU 时 再 详细 说 明 。 
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CPU 执行 指 
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图 17.3. 设备 
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3. 设备 








令 除 了 访问 内 存 之 











外 还 : 





访问 很 多 设备 (Device) 





它们 和 CPU 之 间 如 何 连 接 呢 ? 如 下 图 所 示 。 


， 如 键盘 、 





有 些 设备 
挂 多 个 设备 和 








多 内 存 芯片 一 
内 存 芯片 所 以 才 ! 


连接 














设备 就 像 访问 
备 发 一 个 命令 
数据 ， 





而 是 设备 的 某 


内 存 一 样 ， TO 


EE 


到 处 理 


[| Hitt ae Ht 
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数据 不 一 定 : 
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回 事 ) ， 操 











发 送 寄存 器 里 写 
设备 接收 到 














EEI 
EE 





数据 ， 
的 数据 。 





还 有 一 些 设备 是 集成 在 处 理 需 





线 接口 引出 到 芯片 引 脚 上 了 ， 
的 内 存 地 址 范 





& E 





都 有 














方式 操作 设备 , $ 
口 地 址 空 
殊 的 in/out 指 令 , 


独立 的 端 








从 CPU 的 
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x], CP 
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， 访 问 设 











种 专用 的 指令 
能 要 求 者 
不 同 要 求 的 设 
和 CPU 相连 ， 






































线 上 的 设备 。 所 以 上 图 


在 x86 平 台 上 ， 硬盘 是 ATA、SATA 或 SCSI 总 线 上 的 设备 ， 
令 执行 的 ， 操 作 系统 在 执行 程 请 








接 取 指 





行 ， 这 个 过 程 称 为 加 载 (Load) 





令 访 li]. 
不 一 样 


























U 核 需 : 
yj] 


AN 





路 总 线 ”， 
读 写 即 可 ， 和 访问 内 存 不 同 的 是 ， 
存 ， 从 一 个 地 址 读 出 的 数据 也 不 一 定 是 先前 保 
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样 访问 ， 很 多 体系 结构 (比如 ARM) 采 
。 但 是 x86 比 较 特 殊 ，x86 对 于 设备 有 
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其 实 访问 设备 是 相当 复杂 的 ， 由 于 计算 机 的 设备 五 花 八 门 ， 
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， 这 些 设备 总 线 并 不 直接 
H MO 访问 相应 的 总 总 \ 线 控制 需 
， 可 能 是 实际 的 设备 ， 也 可 能 是 设备 总 线 的 控制 天 
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通过 它 再 去 访问 挂 在 , 

















时 会 把 它 从 硬盘 找到 内 存 ， 这 样 CPU 才 可 
。 程 序 加 载 到 内 存 之 后 ， 成 为 操作 系统 调度 执行 的 一 个 任务 ， 
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就 称 为 进程 (Process) 。 进 程 和 程序 不 是 一 一 对 应 的 。 一 个 程序 可 以 多 次 加 载 到 内 存 ， 成 为 同 
时 运行 的 多 个 进程 ， 例 如 可 以 同时 开 多 个 终端 窗口 ， 每 个 窗口 都 运行 一 个 Shell 进 程 ， 而 它们 对 
应 的 程序 都 是 人 磁盘 上 的 /bin/bash。 


访问 设备 还 有 一 点 和 访问 内 存 不 同 。 内 存 只 是 保存 数据 而 不 会 产生 新 的 数据 ， 如 果 CPU 不 去 读 
书 ， 它 也 不 需要 主动 提供 数据 给 CPU， 所 以 内 存 总 是 被 劲 地 等 待 被 读 或 被 写 。 而 设备 往往 会 自 
己 产 生 数 据 ， 并 且 需 : 主动 通知 CPU 来 读 这 些 数据 ， 例如 敲 键盘 产后 一 个 输入 字符 ， 用 户 和 希望 
计算 机 马上 响应 自己 的 输入 ， 这 就 要 求 键盘 设备 主动 通知 CPU 来 读 这 个 字符 并 做 相应 处 理 ， 给 
用 户 响 应 。 这 是 由 中 断 (Interrupt) 机 制 实 现 的 ， 每 个 设备 都 有 一 条 中 断 线 ， 通 过 中 断 控制 圳 连 
接 到 CPU， 当 设备 需 : 主动 通知 CPU 时 就 引发 一 个 I 呆 信号 ，CPU 正 在 执行 的 指令 将 被 打 断 ， 
程序 计数 需 会 设置 成 某 个 固定 的 地 址 (这 个 地 址 由 体系 结构 定义 ) ， 于 是 CPU 从 这 个 地 址 开始 
取 指 令 (或 者 说 跳 转 到 这 个 地 址 ) ， 执 行 断 服务 程序 (ISR, Interrupt Service Routine) , 5c 
成 ' 断 处 理 之 后 再 返回 先前 被 打 断 的 地 方 执行 后 名 走 指 令 。 比 如 某 种 体系 结构 规定 发 生 中 断 时 跳 
转 到 地 址 0x0000 0010 执 行 ， 那 么 就 要 事先 把 段 ISR 程 序 加 载 到 这 个 地 址 ， ISR 程 序 是 由 内 核 
代码 提供 的 ， 中 断 处 理 的 步骤 通 销 是 先 判断 哪个 设备 引发 了 中 断 ， 然 后 调用 该 设备 驱动 程序 提 
供 的 中 断 处 理 函 数 (Interrupt Handler) 做 进一步 处 理 。 


由 于 各 种 设备 的 用 途 各 不 相同 ， 设 备 寄存 器 中 每 个 位 的 定义 和 操作 方法 也 各 不 相同 ， 所 以 每 种 
设备 都 需要 专门 的 设备 驱动 程序 (Device Driver) ， 一 个 操作 系统 为 了 支持 广泛 的 设备 就 需要 
有 大 量 的 设备 驱动 程序 ， 事 实 上 ，Linux 内 核 源 代码 中 绝 大 部 分 是 设备 驱动 程序 。 设 备 驱 动 程序 
i 系统 内 核 里 的 一 组 函数 ， 主 要 是 通过 对 设备 寄存 器 的 读 写 实现 对 设备 的 初始 化 、 

、 写 等 操作 ， 有 些 设备 还 要 提供 一 个 中 断 处 理 函 数 供 ISR 调 用 。 
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现代 操作 系统 普遍 采用 虚拟 内 存 管 理 (Virtual Memory Management) 机 制 ， 这 需 
要 MMU (Memory Management Unit， 内 存 管理 单元 ) ASCH. AERA Ub MMU , 
则 不 能 运行 依赖 于 虚拟 内 存 管 理 的 操作 系统 。 本 节 人 简要 介绍 MMU 的 作用 和 操作 系统 的 虚拟 内 存 
管理 机 制 。 


首先 引入 两 个 概念 ， 虚 拟 地 址 和 物理 地 址 。 如 果 处 理 器 没有 MMU ， 或 者 有 MMU 但 没有 局 

用 ，CPU 执 行 单元 发 出 的 内 存 地 址 将 直接 传 到 芯片 引 脚 上 ， 被 内 存世 片 〈 以 下 称 为 物理 内 存 ， 
以 便 与 虚拟 内 存 区 分 ) 接收 ， 这 称 为 物理 地 址 (Physical Address， 以 下 简称 PA) ， 如 下 图 所 
示 。 























































































































图 17.4. 物理 地 址 








如 果 处 理 需 启用 了 MMU ，CPU 执 行 单元 发 出 的 内 存 地 址 将 被 MMU 截 获 ， 从 CPU 到 MMU 的 地 址 
称 为 虚拟 地 址 (Virtual Address ， 以 下 简称 VA) ， 而 MMU 将 这 个 地 址 翻译 成 男 一 个 地 址 发 
到 CPU 芯片 的 外 部 地 址 引 脚 上 ， 也 就 是 将 虚拟 地 址 映射 成 物理 地 址 ， 如 下 图 所 示 。 























图 17.5. 虚拟 地 址 
























































注意 ， 对 于 32 位 的 CPU， 从 CPU 执行 单元 这 边 看 地 址 线 是 32 条 (图 中 只 是 示意 性 地 画 了 4 条 地 
址 线 ) ， 可 寻 址 空间 是 4GB ,但 是 通常 般 入 式 处 理 妖 的 地 址 引 脚 不 会 有 这 么 多 条 地 址 线 ， 因 为 
引 脚 是 芯片 上 十 分 有 限 而 宝贵 的 次 资源 ， 而 且 也 不 太 可 能 用 到 4GB 这 么 大 的 物理 内 存 。 事 实 上 ， 

在 启用 MMU 的 情况 rl s 间 和 物理 地 址 空间 是 完全 独立 的 ， 物 理 地 址 空间 既 可 以 小 于 也 
可 以 大 于 虚拟 地 址 空 例如 有 些 32 位 的 服务 器 可 以 配置 大 于 4GB 的 物理 内 存 。 我 们 说 32 位 
的 CPU ， Cr oe 数据 总 线 是 32 位 的 ， 虚 拟 地 址 空间 是 32 位 的 ， 而 物理 地 址 
空间 则 不 一 定 是 32 位 的 。 物 理 地 址 的 范围 是 多 少 ， 取 决 于 处 理 器 引 脚 上 有 多 少 条 地 址 线 ， 也 取 
决 于 这 些 地 址 线 上 实际 连接 了 多 大 的 内 存 仿 片 。 


MMU 将 虚拟 地 址 映射 到 物理 地 址 是 以 页 (Page) 为 单位 的 ， 对 于 32 位 CPU 通 常 一 页 为 4KB。 
例如 ，MMU 可 以 通过 一 个 映射 项 将 虚拟 地 址 的 一 页 0xb7001000~0xb7001fff 映 射 到 物理 地 址 的 
一 页 0x2000~0x2ff， 物 理 内 存 中 的 页 称 为 物理 页 面 或 页 帧 (Page Frame) 。 至 于 虚拟 内 存 的 哪 
个 页 面 映射 到 物理 内 存 的 哪个 页 帧 ， 这 是 通过 页 表 (Page Table) 来 描述 的 ， 页 表 保 存在 物理 
内 存 中 ，MMU 会 查找 页 表 来 确定 一 个 虚拟 地 址 应 该 映射 到 什么 物理 地 址 。 总 结 一 下 这 个 过 程 : 


1. 在 操作 系统 初始 化 或 者 分 配 、 释 放 内 存 时 ， 会 执行 一 些 指令 在 物理 内 存 中 填写 页 表 ， 然 后 
用 指令 设置 MMU ， 告 诉 MMU 页 表 在 物理 内 存 中 的 什么 位 置 。 


2. 设置 好 之 后 ，CPU 每 次 执行 访问 内 存 的 指令 都 会 自动 引发 MMU 做 查 表 和 地 址 转换 的 操 
作 ， 地 址 转换 操作 完全 由 硬件 完成 ， 不 需要 用 指令 控制 MMU 去 做 。 


我 们 在 程序 中 使 用 的 变量 和 函数 都 有 各 自 的 地 址 ， 程 序 被 编译 后 ， 这 些 地 址 就 成 了 指令 中 的 地 

址 ， 指 令 中 的 地 址 被 CPU 解释 执行 ， 就 成 了 CPU 执行 单元 发 出 的 内 存 地 址 ， 所 以 在 局 用 MMU 的 
情况 下 ， 程 序 中 使 用 的 地 址 都 是 虚拟 地 址 。 一 个 操作 系统 中 同时 运行 着 很 多 进程 ， 通 常 泉 面 上 

的 每 个 窗口 都 是 一 个 进程 ，Shell 是 一 个 进程 ， 在 Shell 下 敲 命 令 运 行 的 程序 义 是 一 个 新 的 进程 ， 
此 外 还 有 很 多 系统 服务 和 后 台 进 程 在 默默 无 闻 地 工作 着 。 由 于 有 了 虚拟 内 存 管 理 机 制 ， 各 进程 
不 必 担 心 自 己 使 用 的 地 址 范围 会 不 会 和 别 的 进程 冲突， 比如 两 个 进程 都 使 用 了 虚拟 地 址 0x0804 
8000， 操 作 系统 可 以 设置 MMU 的 映射 项 把 它们 映射 到 不 同 的 物理 地 址 ， 它 们 通过 同样 的 虚拟 地 
址 访问 不 同 的 物理 页 面 ， 就 不 会 冲突 了 。 虚 拟 内 存 管 理 机 制 还 会 在 后 面 进一步 讨论 。 


MMU 除 了 做 地 址 转换 之 外 ， 还 提供 内 存 保护 机 制 。 各 种 体系 结构 都 有 用 户 模 式 (User 

Mode) 和 特权 模式 (Privileged Mode) 之 分 ， 操 作 系统 可 以 设 定 每 个 内 存 页 面 的 访问 权限 ， 有 
些 页 面 不 允许 访问 ， 有 些 页 面具 有 在 CPU 处 于 特权 模式 时 才 人 允许 访问 ， 有 些 页 面 在 用 户 模式 和 

特权 模式 都 可 以 访问 ， 人 允许 访问 的 权限 又 分 为 可 读 、 可 写 和 可 执行 三 种 。 这 样 设 定好 之 后 ， 

当 CPU 要 访问 一 个 VA 时 ， MMU 2 仿 查 CPU 当前 处 于 用 户 模式 还 是 特权 模式 ， 访 问 内 存 的 目的 

是 读数 据 、 写 数据 还 是 取 指 令 ， 如 果 和 操作 系统 设 定 的 页 面 权限 相符 ， 就 允许 访问 ， 把 它 转换 

成 PA， 否 则 不 允许 访问 ， PUER (Exception) o VAAL A TS, HIM 
断 是 由 外 部 设备 产生 的 ， 而 异常 是 由 CPU 内 部 产生 的 ， 中 断 产生 的 原因 和 CPU 当前 执行 的 指令 
无 关 ， 而 异常 的 产生 就 是 由 于 CPU 当 前 执行 的 指令 出 了 问题 ， 例 如 访问 内 存 的 指令 被 MMU 检 查 
出 权限 错误 ， 除 法 指令 的 除数 为 0 等 。 


“中 渐 ”" 和 “异常 "这 两 个 名 词 用 得 也 比较 混乱 ， 不 同 的 体系 结构 有 不 同 的 定义 ， 有 时 候 中 断 和 异常 
不 加 区 分 ， 有 RM hs 包括 中 断 ， ane LSE o EAE 按 上 述 害 义 使 用 这 两 个 名 
ig, NSE PSA 与 指令 的 执行 是 异步 (Asynchronous) 的 ， 异常 的 产生 与 指令 的 执行 是 同步 
(Synchronous) 的 。 
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图 17.6. 处 理 器 模式 
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exception 
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通常 操作 系统 把 虚拟 地 址 空间 划分 为 用 户 空间 和 内 核 空 间 ， 例 如 x86 平 台 的 虚拟 地 址 空间 
是 0x0000 0000~Oxffff ffff， 大 致 上 前 3GB (0x0000 0000~Oxbfff fff) 是 用 户 空间 ， 
后 1GB (0xc000 0000~0xffff ffff) 是 内 核 空间 。 用 户 程序 在 用 户 模式 下 执行 ， 不 能 访问 内 核 中 
的 数据 ， 也 不 能 跳 转 到 内 核 代码 中 执行 。 这 样 可 以 保护 内 核 ， 如 采 一 个 进程 访问 了 非法 地 址 ， 
顶 多 这 一 个 进程 朋 溃 ， 而 不 会 影响 到 内 核 和 其 它 进程 。CPU 在 产生 中 断 或 异常 时 会 自动 切换 模 
式 ， 由 用 户 模式 切换 到 特权 模式 ， 因 此 跳 转 到 内 核 代 码 中 执行 中 断 或 异 稼 服务 程序 就 被 允许 
了 。 事 实 上 ， 所 有 内 核 代 码 的 执行 都 是 从 中 断 或 异常 服务 程序 开始 的 ， 整 个 内 核 就 是 由 各 种 
断 处 理 和 异常 处 理 程序 组 成 。 


我 们 已 经 遇 到 过 很 多 次 的 段 错误 是 这 样 产 生 的 : 
1. 用 户 程序 要 访问 的 一 个 VA， 经 MMU 检 查 无 权 访问 。 


2. MMU 产 生 一 个 异常 ，CPU 从 用 户 模 式 切 换 到 特权 模式 ， 跳 转 到 内 核 代码 中 执行 异常 服务 


3. 内 核 把 这 个 异常 解释 为 段 错 误 ， 把 引发 异常 的 进程 终止 挤 。 
访问 权限 也 是 在 页 表 中 设置 的 ， 可 以 设 定 哪 些 页 面 属 于 用 户 空间 ， 哪 些 页 面 属于 内 核 空 间 ， 哪 


些 页 面 可 读 ， 哪 些 页 面 可 写 ， 哪 些 页 面 的 数据 可 以 当 作 指令 令 执行 等 等 。MMU 在 做 地 址 转换 时 顺 
便 检查 访问 权限 。 
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5. Memory Hierarchy 



























































硬盘 、 内 存 、CPU 和 寄存器， 还 有 本 节 要 讲 的 Cache ， 这 些 都 是 存储 器 ， 计 算 机 为 什么 要 有 这 人 么 
多 种 存储 妖 呢 ?这 些 存储 妖 各 自 有 什么 特点 ?这 是 本 市 要 讨论 的 问题 。 


由 于 硬件 技术 的 限制 ， 我 们 可 以 制造 出 容量 很 小 但 很 快 的 存储 器 ， 也 可 以 制造 出 容量 很 大 但 很 
慢 的 存储 器 ， 但 不 可 能 两 边 的 好 处 都 占 着 ， 不 可 能 制造 出 访问 速度 义 快 容量 又 大 的 存储 器 。 因 
此 ， 现 代 计 算 机 都 把 存储 器 分 成 若干 级 ， 称 为 Memory Hierarchy ， 按 照 离 CPU 由 近 到 远 的 顺序 
依次 是 CPU 寄存 锅 、Cache、 内 存 、 和 硬盘 ， 越 靠近 CPU 的 存储 器 容量 越 小 但 访问 速度 越 快 ， 下 
图 给 出 了 各 种 存储 器 的 容量 和 访问 速度 的 典型 值 。 





























































































































































































































图 17.7. Memory Hierarchy 
典型 容量 典型 方 B 时 间 






JLEGB~JLTB 


nne-nol | 100~150 ns 

na- = | 40~60 ns 
i 

rum | mone | 5~10 ns 
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3-15 ms 


表 17.1. Memory Hierarchy 
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于 Cache 的 访问 
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址 的 ， 二 级 缓存 
zM PAHE 
的 ， 这 是 它们 的 
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件 自动 完成 的 ， 
而 不 是 像 寄 存 需 
样 由 指令 决定 
先 做 什么 后 做 什 
Lo 
内 存 是 通过 地 址 
来 访问 的 ， 但 是 
在 启用 MMU 的 
情况 下 ， 程 序 指 
令 中 的 地 址 
TEES 的 访 | 是 VA， 而 访问 
es 可 时 间 是 | 内 存 用 的 
于 Cache 的 百 纳 ”| 是 PA， 并 无 直 
接 关 系 ， 这 种 情 
i 内 存 的 分 配 
用 由 操作 系 
统 通过 修 
改 MMU 的 映射 
项 来 协调 。 
由 驱动 程序 操作 
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硬盘 由 磁性 介质 和 M d 
磁头 组 成 ， 访 问 硬 ， 
sun te CEBU E 
动 ， 磁 头 要 移动 ， [sh RA 
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运动 的 速度 很 ere 
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(Amortize) 给 
多 次 数据 访问 
Ts 














对 这 个 表格 总 结 如 下 。 


。 寄存 器 、Cache 和 内 存 中 的 数据 都 是 掉 电 丢失 的 ， 这 称 为 易 失 性 存储 器 (Volatile 
Memory) ,与 之 相对 的 ， 硬盘 是 一 种 非 易 失 性 存储 器 (Non-volatile Memory) 。 


。 除了 访问 寄存 器 由 程序 指令 直接 控制 之 外 ， 访 问 其 它 存 储 器 都 不 是 由 指令 直接 控制 的 ， 有 












































































































































些 是 硬件 目 动 完 成 的 ， 有 些 是 操作 系统 配合 硬件 完成 的 。 


。 Cache 从 内 存 取 数 据 时 一 次 取 一 个 Cache Line 绥 存 起 来 ， 操 作 系统 从 硬盘 取 数 据 时 一 次 取 
几 KB 缓 存 起 来 ， 都 是 希望 这 些 数据 以 后 会 被 访问 到 。 大 多 数 程序 的 行为 都 具有 局 部 性 
(Locality) 的 特点 : 它们 会 花费 大 量 的 时 间 反 复 执 行 一 小 段 代码 (例如 循环 ) ， 或 者 反 
复 访问 一 个 很 小 的 地 址 范围 中 的 数据 (例如 访问 一 个 数组 )  。 所 以 预 SE eZ 法 是 很 有 
WAJ: CPU 取 一 条 指令 ， 我 把 它 相 邻 的 指令 也 都 缓存 起 来 ，CPU 很 可 能 马上 就 会 取 

到 ; CPU 访问 一 个 数据 ， 我 把 它 相 邻 的 数据 也 都 缓存 起 来 ，CPU 很 可 能 马上 就 会 访问 到 。 

设想 有 两 台 计算 机 ， 一 台 有 32KB 的 Cache ， 另 一 台 没 有 Cache ， 而 内 存 都 是 512MB 的 ， 

硬盘 都 是 100GB 的 ， 虽 然 多 出 来 32KB 的 Cache 和 内 存 、 硬 盘 的 容量 相 比 微不足道 ， 但 由 

于 局 部 性 原理 ， 有 Cache 的 计算 机 明显 会 快 很 多 。 高 速 存储 器 即使 容量 只 能 做 得 很 小 也 能 

显著 提升 计算 机 的 性 能 ， 这 就 是 Memory Hierarchy 的 意义 所 在 。 











































































































































































































ess = 下 二 页 
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要 彻底 搞 清 楚 C 语 言 的 原理 ， 必 须要 深入 到 指令 一 层 去 理解 。 你 写 一 行 C 代 码 ， 编 译 絮 会 生成 什 
么 样 的 指令 ， 要 做 到 心中 有 数 。 本 章 介绍 汇编 程序 的 一 些 基础 知识 。 汇 编程 序 不 是 本 书 的 重 
点 ， 不 要 求学 会 写 沪 编程 序 ， 只 要 能 理解 和 能 看 懂 基 本 的 汇编 代码 就 可 以 了 ， 后 面 的 革 届 会 在 
此 基础 上 讨论 C 语 言 的 原理 。 


1. 最 简单 的 汇编 程序 





第 18 章 x86 汇 编程 序 基 础 


1. 最 简单 的 汇编 程序 





例 18.1. 最 简单 的 汇编 程序 





; #PURPOSE: Simple program that exits and returns a 


.Section .data 


iE status code back to the Linux kernel 
Dd 

a INPUTS none 

Dd 

: #OUTPUT: returns a status code. This can be viewed 
Dd by typing 

Dd 

Pu echo $? 

id 

Dd after running the program 

Dd 

| #VARIABLES: 

bo seax holds the system call number 

Dd sebx holds the return status 

Dd 


.Section .text 
Go Start 
|! Start: 
movl $1, $eax # this is the linux kernel command 
# number (system call) for exiting 
# a program 


movl $4, $ebx # this is the status number we will 
return to the operating system. 
Change this around and it will 
return different things to 

echo $? 


# 
# 
# 
# 


int $0x80 # this wakes up the kernel to run 
# the exit command 















































把 这 个 程序 保存 成 文件 nel1lo.s (汇编 程序 通常 以 .s 作 为 文件 名 后 级 ) ， 然 后 用 汇编 器 
(Assembler) as 把 汇编 程序 中 的 助 记 符 翻 译 成 机 器 指令 ， 生 成 日 标 文件 hello.o: 



































smeme -© bello e 























然后 用 链接 器 (Linker, skLink Editor) 1a 把 目标 文件 hello.o 链 接 成 可 执行 文件 hello: 











是 SENESIUESSES hello 












































是 链接 的 主要 作用 。 我 们 这 个 例子 虽然 只 有 一 个 目标 文件 ， 但 也 需要 经 过 链接 才能 成 为 可 执 生 
文件 ， 因 为 链接 器 要 修改 目标 文件 中 的 一 些 信息 ， 这 个 将 在 第 5.2 节 “可 执行 文件 "详细 解释 。 
现在 执行 这 个 程序 ， 它 只 做 了 一 件 事 就 是 退出 ， 退 出 状态 (Exit Status) 为 4， 在 Shell 中 可 以 有 
特殊 变量 s? 得 到 上 一 条 命令 的 退出 状态 : 


在 第 2 了 “main 撒 数 和 局 动 例 程 "我 们 会 讲 到 把 多 个 目标 文件 链接 成 一 个 可 执行 文件 的 过 程 ， 这 





















































































































































foem 




















$ 
is 
: 4 


./hello 
echo $? 























程序 








的 # 号 表示 单行 注释 ， 








类 似 于 C 语 言 的 / /注释 。 





下 面 逐 








行 解释 非 注 释 的 代码 。 


.data 


.Section 

















汇编 程序 
殊 的 指示 ， 
是 真正 的 














系统 加 载 执 和 


以 .开头 的 名 称 并 不 是 指令 的 











站 令 所 以 加 个 “ 伪 ” 字 。 











序 的 数据 ， 
以 .qata 上 段 


助 记 符 ， 








会 被 翻 译 成 机 器 指令 ， 
































是 空 的 。 


量 也 属于 .aata 段 。 











执行 权限 。 
本 程序 























而 是 给 汇编 磺 
称 为 汇编 指示 (Assembler Directive) 或 伪 操 作 (Pseudo-operation) , 
.section 指 示 把 代码 划分 成 若干 个 段 (Section) , 

J 了 时， 每 个 段 被 加 载 到 不 同 的 地 址 ， 具 有 不 同 的 读 、 写 、 N 
是 可 读 可 写 的 ，C 程 序 的 全 局 变 


一 些 特 


由 于 它 不 








程序 被 操作 
.uata 段 保存 程 
没有 定义 数据 ， 所 








.text 


.Section 








= 








.text 段 保 








存 代码 ， 





是 只 读 和 可 执行 的 ， 后 面 那 些 指令 都 属于 














i | 








.globl 


. Start 








 startjÉ 


SUED 


一 个 符号 





Aste TA 


fj (Symbol) 








, FS FEL FTE 




















代表 一 个 地 址 ， 可 以 用 在 指令 





























去 写 其 








访问 


的 。 





.g] 


=! 
个 变量 ， H 


跳 转 到 该 函数 第 一 


obl 指 示 告 诉 汇编 需 ， 











Ci ee BEES A 


条 指 














的 处 理 之 后 ， 所 有 的 符号 都 被 蔡 换 成 它 所 代表 的 























殊 标 ; 


己 〈 在 多 


Sia 





的 入 
入 口 地 址 ， 
用 .gi 














口 ， 链 接 器 在 链接 时 会 查找 


1 指示 声明 ， 








小 


E 会 讲 到 ) 。 


_start 这 个 符号 : 


:个 链接 如 



































目标 文件 








所 以 每 个 汇编 程序 都 要 提供 
就 表示 这 个 符号 




















BBE Bea A 


量 名 和 函数 名 都 是 符 


_start 就 


' 的 _start 符 号 代表 的 地 址 





bH 





Ho 在 C 语 言 

















Fi 














Fi 
































HE 用 到 ， 所 以 要 在 


| 我 们 通过 
个 地 址 的 内 存单 元 ， 其 
令 所 在 的 地 址 ， 所 以 变 


Ast TA 


汇编 程序 
变量 名 
实 就 是 


























， 本 质 上 是 代表 内 存 地 址 














目标 文件 
数 一 样 特殊 ， 

















RC BEF main K 




















p 
^^ start 














1 声明 。 如 果 

















的 符号 





1 给 它 特 
是 整个 程序 








， 把 它 设 置 为 整个 程序 的 





Aste TA 


一 个 符号 没有 























































































































-start TEX EMAC E MES 样 。 沪 编 絮 在 处 理 汇编 程序 时 会 计算 每 个 数据 对 象 和 每 条 
指令 的 地 址 ， 当 汇编 器 看 到 这 样 一 个 标号 时 ， 就 把 它 下 面 一 条 指令 的 地 址 作为 _start 这 个 符号 
所 代表 的 地 让。 而 _start 这 个 符号 又 比较 特殊 ， 它 所 代表 的 地 址 是 整个 程序 的 入 口 地 址 ， 所 以 
下 一 条 指令 mov1 $1，seax 就 成 了 程序 中 第 一 条 被 执行 的 指令 。 























i movie s. 


$eax 




























































































o mov 后 面 的 1 表 
， 在 汇编 程序 


























这 是 一 条 数据 传送 指令 令 ，CPU 内 部 产生 一 个 数字 1， 然 后 传送 到 eax 寄 存 器 中 
示 long ， 涪 明 是 32 位 的 传送 指令 。CPU 内 部 产生 的 数 称 为 立即 数 (Immediate) 
1， 立 即 数 前 面 要 加 $， 寄 存 需 8 名 前 面 要 加 s 以 便 跟 符号 名 区 分 开 。 
acc" oe ee cay ace 
和 上 一 条 指令 类 似 ， 生 成 一 个 立即 数 4， 传 送 到 ebx 寄存 器 中 。 





CO ime SOO 


1. in 


: int fff ~ 


在 Linux 内 核 |, int $0x80 这 种 异常 "B AO A a A (System Call) 。 内 核 提 供 了 很 多 系统 














前 两 条 指令 都 是 为 这 条 指令 做 准备 的 ， 执 行 这 条 指令 时 发 生 以 下 动作 : 
































指令 称 为 软 中 断 指 令 ， 可 以 用 这 条 指令 故意 产生 一 个 异常 ， 上 一 章 讲 过 ， 有 异常 的 处 理 





no 



































和 中 断 类 似 ，CPU 从 用 户 模式 切换 到 特权 模式 ， 然 后 跳 转 到 内 核 代 码 中 执行 蜡 常 处 理 程 





序 。 


bA 






















































































:的 立即 数 0x80 是 一 个 参数 ， 在 异常 处 理 程序 中 要 根据 这 个 参数 决定 如 何 处 理 ， 































































































服务 供用 户 程序 使 用 ， 但 这 些 系统 服务 不 能 像 库 函 数 (比如 printf) 那样 调用 ， 因 为 在 执 








行 用 户 程序 时 CPU 处 于 用 户 ist, ， 不 能 直接 调用 内 核 函 数 ， 所 以 需要 通过 系统 调用 切 






























































换 CPU 模 式 ， 通 过 异常 处 理 程序 进入 内 核 用 户 程序 只 能 通过 寄存 般 传 儿 个 参数 ， 之 后 就 





























X, ARS 

















要 按 内 核 设 计 好 的 代码 路 线 走 ， 而 不 能 由 用 户 程 序 随心 所 欲 ， 想 调 哪 个 内 核 函数 就 调 哪个 
内 核 函 数 ， 这 样 保证 了 系统 服务 被 安全 地 调用 。 在 调用 结束 之 后 ，CPU 再 切换 回 用 户 模 













































































卖 执行 int 指 令 后 面 的 指令 ， 在 用 户 程序 看 来 就 像 函 数 的 调用 和 返回 一 样 。 
































. eax 和 ebx 寄存 需 的 值 是 传递 给 系统 调用 的 两 个 参数 ，eax 的 值 是 系统 调用 号 ，1 表 
示 _exit 系统 调用 ，epx 的 值 则 是 传 给 _exit 系统 调用 的 参数 ， 也 就 是 退出 状态 。_exit 这 个 
系统 调用 会 终止 挥 当前 进程 ， 而 不 会 返回 它 继续 执行 。 以 后 我 们 会 讲 到 其 它 系 统 调用 ， 也 


题 


















































是 由 :int 


也 不 同 ， 










































































$0x80 指 令 引 发 的 ，eax 的 值 是 系统 调 用 的 编号 ， 不 同 的 系统 调用 需要 的 参数 个 数 
比如 有 的 需要 ebx、ecx、eadx 三 个 寄存 需 的 值 做 参数 ， 大 多 数 系统 调用 完成 之 后 

































































是 会 返回 用 户 程序 继续 执行 的 ， 本 例 的 _exit 系 统 调 用 比较 特殊 。 





x86 汇 编 的 两 种 语法 : intel 语 法 和 AT&T 语 法 











x86 汇 编 一 直 存在 两 种 不 同 的 语法 ， 在 intel 的 官方 文档 中 使 
用 intel 语 法 ，Windows 也 使 用 intel 语 法 ， 而 UNIX 平 台 的 汇编 器 一 
直 使 用 AT&T 语 法 > 所 以 本 书 使 用 AT&T 语 法 。 mov %edx, seax 这 条 














指令 如 果 用 intel 语 法 来 写 ， 就 是 nov eax,eax, "i ffüR4A s, 
并 且 源 操作 数 和 目标 操作 数 的 位 置 互 换 。 本 书 不 详细 讨论 这 两 种 
语法 之 间 的 区 别 ， 读 者 可 以 参考 [AssemblyHOWTO]。 


介绍 x86 汇 编 的 书 很 多 ，UNIX 平 台 的 书 都 采用 AT&T 语 法 ， 例 
如 [GroudUp]， 其 它 书 一 般 采 用 intel 语 法 ， 例 如 [x86Assembly]。 
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解释 其 原 











Wint $ox80 指 令 去 掉 ， 汇 编 、 链 接 也 能 通过 ， 但 是 执行 的 时 候 出 现 段 错误 。 
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aec 





2. x86 ÉJ FITTAN 


x86 的 通用 寄存 器 有 eax、ebx、ecx、edx、edi、esi。 这 些 寄存 器 在 大 多 数 指令 中 是 可 以 任意 选 
用 的 ， 比如 mov1 指 令 可 以 把 一 个 立即 数 传 送 到 eax 中 ， 也 可 传送 到 ebx 中 。 但 也 有 一 些 指 令 规 定 
只 能 用 其 中 某 些 寄存 CERE, MURRE O aiv BOR BRB E eax tt Fant, edx tt Frit 
必须 是 0， 而 除数 可 以 在 任意 寄存 器 中 ， 计 算 结果 的 商 数 保存 在 eax 寄存器 中 (覆盖 原来 的 被 除 
BO) ， 余 数 保 存在 eax 寄 存 器 中 。 也 就 是 说 ， 通用 寄存 器 对 于 某 些 指令 而 言 不 是 通用 的 。 


x86 的 特殊 寄存 需 有 epp、 ees Ep eflagso eip 是 程序 计数 器 ，eflags 保 存 着 计算 过 程 中 产生 
的 标志 位 ， 包 括 第 3 节 “ 整 数 的 加 减 运算 ? 讲 过 的 进位 、 溢 出 、 E 负数 四 个 标志 位 ， 在 x86 的 文 
档 中 这 几 个 标志 :位 分 别称 为 CF、 OF、ZF、SF。ebp 和 esp 用 于 维护 函数 调用 的 栈 帧 ， 我 们 以 后 
再 详细 讨论 。 




















3. 第 二 个 汇编 程序 
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3. 第 二 个 汇编 程序 








例 18.2. 求 一 组 数 的 最 大 值 的 汇编 程序 


; #PURPOSE: This program finds the maximum number of a 























Dd set of data items. 

Dd 

i #VARIABLES: The registers have the following uses: 
Dd 

i gechi Molds the index of Phe ceta item being 

: examined 

"d sebx - Largest data item found 

|! 4 $eax - Current data item 

Dd 

i# The following memory locations are used: 

Dd 

: 4 data items - contains the item data. A 0 is used 
|: 4 to terminate the data 

Dd 


| .Section .data 
: data items: #These are the data items 
PD sodio] Sp OV 34, 222,45, 15, Oa, 34, 44, 93.22 di, SG, (9) 


«Sie cio magis exl 
GLL STATE 


start: 

i movl $0, %edi # move 0 into the index 

| register 

| movl data_items(,%edi,4), $eax # load the first byte 
‘of data 

! movl $eax, %ebx # since this is the first 


| item, $eax is 
# the biggest 


: start, loop: # start loop 
: cmpl $0, %eax # check to see if we've hit the 
;end 
! je loop exit 
incl $edi # load next value 
movl data items(,$edi,4), $eax 
cmpl $ebx, $eax # compare values 
|! jle start loop # jump to loop beginning if the 
i new 
* one isn't bigger 
movl $eax, $ebx # move the value as the largest 
jmp start loop # jump to loop beginning 


: loop exit: 

: £4 $ebx is the status code for the exit system call 
# and it already has the maximum number 
movl $1, $eax #1 is the _exit() syscall 
int $0x80 








汇编 、 链 接 、 执 行 : 


| $ as max.s -O max.o 
|: $ ld max.o -o max 























这 个 程序 在 一 组 数 中 找到 一 个 最 大 的 数 ， 并 把 它 作 为 程序 的 退出 状态 。 这 组 数 在 .data 段 给 出 : 












































! data, items: 
Sonde oV Pd A ot), 34 aa 337 22, il, GO, O 




















.long 指 示 声 明 一 组 数 ， 每 个 数 占 32 位 ， 相 当 于 C 语 言 中 的 数组 。 这 个 数组 开头 有 一 个 标 

号 data_items ， 汇编 硕 会 把 数组 的 首 地 址 作为 aata_items 符 号 所 代表 的 地 址 ， data_items 类 似 
于 C 语 言 中 的 数组 名 。adata_items 这 个 标号 没有 用 .globl 声 明 ， 因 为 它 只 在 这 个 汇编 程序 内 部 使 
用 ， 链 接 器 不 需要 知道 这 个 名 字 的 存在 。 除 了 .1ong 之 外 ， 常 用 的 数据 声明 还 有 : 


e .byte， 也 是 声明 一 组 数 ， 每 个 数 占 8 位 







































































































































































e .ascii， 例 如 .ascii "Hello world", 声明 了 11 个 数 ， 取 值 为 相应 字符 的 ASCII 码 。 注 
意 ， 和 C 语 言 不 同 ， 这 样 声明 的 字符 串 末 尾 是 没有 "0' 字 符 的 ， 如 果 需 要 以 \0' 结 尾 可 以 声明 
WN ascii "Hello world\0"o 


data_items 数 组 的 最 后 一 | 数 是 0， 我 们 在 一 个 循 
目 。 在 这 个 循环 中 : 


e edi 寄 存 圳 保存 数组 中 的 当前 位 置 ， 每 次 比较 完 一 个 数 就 把 eai 的 值 加 1 ， 指 向 数组 


一 个 数 。 
。cpx 寄 存 器 保存 到 目前 为 止 找到 的 最 大 值 ， 如 果 发 现 有 更 大 的 数 就 更 新 ebx 的 值 。 


e eax 寄 存 右 保存 当前 要 比较 的 数 ， 每 次 更 新 edi 之 后 ， 就 把 下 一 个 数 读 到 eax 中 。 













































































E: 





依次 比较 每 个 数 ， 碰 到 0 的 时 候 让 循环 终 








































































































的 下 














































































































































| _ Seasee 
| movl $0, %edi 




















: movl data_items(,%edi,4), %eax 


























这 条 指令 把 数组 的 第 0 个 元 素 传 送 到 eax Aj HEF o data_items 是 数组 的 首 地 址 ， edi 的 值 是 数组 
的 下 标 ，4 表 示 数 组 的 每 个 元 素 占 4 字 节 ， 那 么 数组 中 第 sai 个 元 素 的 地 址 应 该 是 aata_items + 
edi * 4， 从 这 个 地 址 读数 据 ， 写 成 指令 就 是 上 面 那 样 ， 这 种 地 址 的 表示 方式 在 下 一 市 还 会 详细 


解释 。 


























































































































ebx 的 初始 值 也 是 数组 的 第 0 个 元 素 。 下 面 我 们 进入 一 个 循环 ， 在 循环 的 开头 用 标 
号 start_loop 表 示 ， 循环 的 末尾 之 后 用 标号 loop_exit 表 示 。 
















































































etare loos 
: cmpl $0, %eax 
je loop_exit 
































比较 eax 的 值 是 不 是 0， 如 果 是 0 就 说 明 到 达 数 组 末尾 了 ， 就 要 跳出 循环 。cmpl 指 令 将 两 个 操作 数 
相 减 ， 但 计算 结果 并 不 保存 ， 只 是 根据 计算 结果 改变 eflags 寄 存 需 中 的 标志 位 。 如 果 两 个 操作 
数 相 等 ， 则 计算 结果 为 0，ef1lags 中 的 ZF 位 置 1。je 是 一 个 条 件 跳 转 指 令 ， 它 检查 ef1ags 


的 ZF 位 ，ZF 位 为 1 则 发 生 跳 转 ，ZF 位 为 0 则 不 跳 转 ， 继 续 执 行 下 一 条 指令 。 可 见 比 较 指令 和 条 件 






































































































































































































































跳 转 指令 是 配合 使 用 的 ， 前 者 改变 标志 位 ， 后 者 根据 标志 位 做 判断 ， 如 果 参 与 比较 的 两 数 相等 
则 跳 转 ，je 的 e 就 表示 equal。 























i incl %edi 
' movl data_items(,%edi,4), %eax 





























Tíeai RED, IEAA FI T 1 XU E eax S Fat F o 






































; cmpl $ebx, %eax 
i jle start loop 


















































把 当前 数组 元 素 eax 和 目前 为 止 找到 的 最 大 值 epx 做 比较 ， 如 果 前 者 小 于 等 于 后 者 ， 则 最 大 值 没 
有 变 ， 跳 转 到 循环 开头 比较 下 一 个 数 ， 否 则 继续 执行 下 一 条 指令 。j1e 也 是 一 个 条 件 跳 转 指 
令 ，le 表 示 |less than or equal. 

































































: movl %eax, %ebx 
i jmp start loop 




















更 新 了 最 大 值 eox 然 后 跳 转 到 循环 开头 比较 下 一 个 数 。jmp 是 一 个 无 条 件 跳 转 指令 ， 什 么 条 件 也 
不 判断 ， 直接 跳 转 。 loop_exit 标 号 后 面 的 指令 用 exit 系统 调用 退出 程序 。 
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4. 寻 址 方式 


通过 上 一 节 的 例子 我 们 了 解 到 ， 访 问 内 存 时 在 指令 中 可 以 用 多 种 方式 表示 内 存 地 址 ， 比 如 可 以 
用 数组 基地 址 、 元 素 长 度 和 下 标 三 个 量 来 表示 ， 增 加 了 寻 址 的 灵活 性 。 本 节 介 绍 x86 党 用 的 几 种 
寻 址 方式 (Addressing Mode) 。 内 存 寻 址 在 指令 中 可 以 表示 成 如 下 的 通用 格式 : 
ADDRESS_OR_OFFSET(%BASE_OR_OFFSET,%INDEX,MULTIPLIER) 

它 所 表示 的 地 址 可 以 这 样 计算 出 来 : 


FINAL ADDRESS = ADDRESS OR OFFSET + BASE OR OFFSET + MULTIPLIER * INDEX 





















































































































































'ADDRESS OR OFFSETZAIMULTIPLIER VÆ if 2, BASE OR OFFSETTIINDEX 4^ 
是 寄存 器 。 在 有 些 寻 址 方式 中 会 省 略 这 4 项 中 的 某 些 项 ， 相 当 于 这 些 项 是 0。 


。 直接 寻 址 (Direct Addressing Mode) 。 只 使 用 ADDRESS OR 例如 mov1 
ADDRESS, %eaxt ADDRESS Huh; A R32 LRS Blleax P d 














































































































e. 变 址 寻 址 (Indexed Addressing Mode ) o 上 一 节 的 movl data items(,$edi,4), seax 就 
属于 这 种 寻 址 方式 ， 用 于 访问 数组 元 素 比较 方便 。 


。 间接 寻 址 (Indirect Addressing Mode) 。 只 使 用 BASE_OR_OFFSET 寻 址 ， 例 如 mov1 
(seax)，sebx， 把 eax 寄 存 器 的 值 看 作 地 址 ， 把 这 个 地 址 处 的 32 位 数 传送 到 ebx 寄存 器 。 注 
意 和 mov1 Seax, sebx 区 分 开 。 



















































































。 基 址 寻 址 (Base Pointer Addressing Mode) 。 只 使 
用 ADDRESS _OR_OFFSET 和 BASE_OR_OFFSET 寻 址 ， 例 如 movl 4(seax)，sebx， 用 
于 访问 结构 体 成 员 比较 方便 ， 例如 一 个 吉 构 体 的 基地 址 保存 在 eax 寄 存 器 '， 其 中 一 个 成 
员 在 结构 体内 的 偏 移 量 [是 4 字 市 ， 要 把 这 个 成 员 读 上 来 就 可 以 用 这 条 指令 。 


立即 数 寻 址 (Immediate Mode) 。 就 是 指令 中 有 一 个 操作 数 是 立即 数 ， 例 如 mov1 $12, 
seax 中 的 $12， 这 其 实 跟 寻 址 没什么 关系 ,但 也 算 作 一 种 寻 址 方式 。 


寄存 器 寻 址 (Register Addressing Mode) 。 就 是 指令 中 有 一 个 操作 数 是 寄存 促 ， 例 
如 novl s12，seax 中 的 seax， 这 跟 内 存 寻 址 没什么 关系 ， 但 也 算 作 一 种 寻 址 方式 。 在 汇编 
程序 中 寄存 器 用 助 记 符 来 表示 ， 在 机 器 指令 中 则 要 用 几 个 Bit 表 示 寄 存 器 的 编号 ， 这 几 

个 Bit 也 可 以 看 作 寄 存 器 的 地 址 ， 但 是 和 内 存 地 址 不 在 一 个 地 址 空间 。 
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5. ELF 文 件 




















[页 第 18 章 x86 汇 编程 序 基 础 joies 
5. ELF X 
ELF 文 件 格式 是 一 个 开放 标准 ， 各 种 UNIX 系 统 的 可 执行 文件 都 采用 ELF 格 式 ， 它 有 三 种 不 同 的 
类 型 

















。 可 重 定位 的 目标 文件 (Relocatable ) 








n 








执行 文件 (Executable) 


d 


e 共享 库 (Shared Object) 
现在 我 们 分 析 例 18.2 "5 
























































介绍 。 


5.1. 目标 文件 





2H% ERE" ZS Je E FT] HER max .o 和 链接 
之 后 生成 的 可 执行 文件 max 的 格 式 ， Sasa ica. 链接 和 加 载 执行 的 过 程 。 共 享 库 以 后 再 详细 





ELF 文 件 格式 提供 了 两 种 不 同 的 视角 ， 在 汇编 右 和 链接 需 看 来 ，ELF 文 件 是 由 Section Header 





























Table 描 述 的 一 系列 Section 的 集合 ， 而 执行 一 个 ELF 文 件 时 ， 在 加 载 器 (Loader) 看 来 它 是 





由 Program Header Table 描 述 的 一 系列 Segment 的 集合 [29]。 如 下 图 所 示 。 





图 18.1. ELF 文 件 





I 


linkable executable 
sections segments 


ELF header 


program =h) 
table 


一 一 一 header 
table 














describes 
segments 


(optional, 
ignored) 


sections 
segments 







describes 
sections 


(optional, 
ignored) 











H 


左边 是 从 汇编 器 和 链接 器 的 视角 来 看 这 个 文件 ， 开 头 的 ELF Header 描 述 了 体系 结构 和 操作 系统 

































































等 基本 信息 ， 并 指出 Section Header Table 和 Program Header Table 在 文件 中 的 什么 位 
i, Program Header Table 在 汇编 和 链接 过 程 中 没有 用 到 ， 所 以 是 可 有 可 无 的 ，Section 























































































































Table 在 加 载 过 程 中 没有 用 到 ， 所 以 是 可 有 可 无 的 。 注 意 Section Header Table 和 Program 


Header Table 中 保存 了 所 有 Section 的 描述 信息 。 右 边 是 从 加 载 器 的 视角 来 看 这 个 文件 ， 开 头 
是 ELF Header，Program Header Table 中 保存 了 所 有 Segment 的 描述 信息 ，Section Header 















































Header Table 并 不 是 一 定 要 位 于 文件 开头 和 结尾 的 ， 其 位 置 由 ELF Header 指 出 ， 上 图 这 人 么 1 















































是 为 了 清晰 。 















































我 们 在 汇编 程序 中 用 . section 声 明 的 Section 会 成 为 目标 文件 中 的 Section ， 此 外 汇编 右 还 会 自动 






































添加 一 些 Section (比如 符号 表 ) 。Segment 是 指 在 程序 运行 时 加 载 到 内 存 的 具有 相同 属性 的 区 















































域 ， 由 一 个 或 多 个 Section 组 成 ， 比 如 有 两 个 Section 都 要 求 加 载 到 内 存 后 可 读 可 写 ， 就 属 








m 

































































存 ， 那 么 就 不 属于 任何 Segment。 








个 Segment。 有 些 Section 只 对 汇编 器 和 链接 器 有 意义 ， 在 运行 时 用 不 到 ， 也 不 需要 加 载 到 





于 同一 





内 





















































目标 文件 需要 链接 器 做 进一步 处 理 ， 所 以 一 定 有 Section Header Table; 可 执行 文 伯 




















需要 加 载运 






































Fr LABEL Section Header Table 又 有 Program Header Table. 





























下 
分 析 。 


行 ， 所 以 一 定 有 Program Header Table; 而 共享 库 既 要 加 载运 行 ， 又 要 在 加 载 时 做 动态 他 


面 用 reaaelf 工 具 读 出 目标 文件 nax.o 的 ELF Header 和 Section Header Table, ， 然 后 我 们 逐 


E readelf -a max.o 
; ELF Header: 
i Magic: Jg 45 4e de (O1 0L (gb OO (90. 00 00 00 00 (o (0 00 


Class: ELF32 

Data: 2's complement, little endi 
Version: 1 (current) 

OS/ABI: UNIX - System V 

ABI Version: 0 

Type: REL (Relocatable file) 
Machine: Intel 80386 

Version: 0x1 

Entry point address: 0x0 

Start of program headers: 0 (bytes into file) 
Start of section headers: 200 (bytes into file) 
Flags: 0x0 

Size of this header: 52 (bytes) 

Size of program headers: 0 (bytes) 

Number of program headers: 0 

Size of section headers: 40 (bytes) 

Number of section headers: 8 


Section header string table index: 5 


an 























ELF Header 中 描述 了 操作 系统 是 UNIX， 体 系 结构 是 80386 。Section Header Table 
































连接 ， 


有 8 个 Section Header， 在 文件 中 的 位 置 (或 者 叫 文件 地 址 ) 从 200 (0xc8) 开始 ， 每 个 40 字 















































节 ， 共 320 字 节 ， 到 文件 地 址 0x207 结 束 。 这 个 目标 文件 没有 Program Header. 








| Section Headers: 








: [Nr] Name Type Addr Off Size ES 
mle Lie Tai Al 

: [ @ NULL 00000000 000000 000000 00 
TO O © 

: [ 1] .text PROGBITS 00000000 000034 00002a 00 
TAXO 9 4 

: [ 2] .rel.text REL 00000000 000250 000010 08 
[o i 4 

| S cata PROGBITS 00000000 000060 000038 00 
:WA 0 Oo 4 

: IBN SS NOBITS 00000000 000098 000000 00 
:WA 0 0 4 

: [ Bl) sel wells STRTAB 00000000 000098 000030 00 
:0 © il 

: [ 6] .symtab SYMTAB 00000000 000208 000080 10 
7 4 

[ Y] Sx STRTAB 00000000 000288 000028 00 
:0 Q A 


i Key to Flags: 
: W (write), A (alloc), X (execute), M (merge), S (strings) 


I (info), L (link order), G (group), x (unknown) 
O (extra OS processing required) o (OS specific), p (processor 
: specific) 


; There are no section groups in this file. 


! There are no program headers in this file. 





















































从 Section Header 中 读 出 各 Section 的 描述 信息 ， 其 中 .text 和 .aata 是 我 们 在 汇编 程序 中 声明 
的 Section ， 而 其 它 Section 是 汇编 器 自动 添加 的 。aqar 是 这 些 段 加 载 到 内 存 中 的 地 址 (我 们 讲 过 
程序 中 的 地 址 都 是 虚拟 地 址 ) ， 加 载 地 址 要 在 链接 时 填写 ， 现 在 空缺 ， 所 以 是 
全 0。off 和 size 两 列 指 出 了 各 Section 的 文件 地 址 ， 比 如 .aata 从 文件 地 址 0x60 开 始 ， 一 

共 0x38 个 他方， 回去 翻 一 下 程序 ，.aata 中 定义 了 14 个 4 字 市 的 整数 ， 一 共 是 56 个 字 市 ， 也 就 
是 0x38 个 。 根 据 以 上 信息 可 以 描绘 出 整个 目标 文件 的 布局 。 





















































































































































































































































表 18.1. 目标 文件 的 布局 


o jErHee | 



































ISSA, SI TECBEHInexaump Li 








A 
OL 





目标 文件 的 字 市 全 部 打印 出 来 看 。 




















ig hexdump -C max.o 
: 00000000 7f 45 4c 46 01 01 01 00 00 00 00 00 00 00 00 00 


i 00000010 01 00 03 00 01 00 00 00 0000 00 00 00 00 00 00 


: 00000020 c8 00 00 00 00 00 00 00 34 00 00 00 00 00 28 00 


: 00000030 08 00 05 00 bf 00 00 00 00 8b 04 bd 00 00 00 00 
: 00000040 89 c3 83 £8 00 74 10 47 8b 04 bd 00 00 00 00 39 
eae cane 9 

: 00000050 d8 7e ef 89 c3 eb eb b8 01 00 00 00 cd 80 00 00 
: 00000060 03 00 00 00 43 00 00 00 22 00 00 00 de 00 00 00 
ADM URN 

100000070 2d nu 00 4b 00 00 00 36 00 00 00 22 00 00 00 |- 
NS REC NE 
: 00000080 2c 00 00 00 21 00 00 00 16 00 00 00 Ob 00 00 00 
DI eure aria ee 

: 00000090 42 00 00 00 00 00 00 00 00 2e 73 79 6d 74 61 62 
psc ess symtab 
|000000a0 00 2e 73 74 72 74 61 62 00 2e 73 68 73 74 72 74 
Stet ESSE Ste 
| 000000560 61 62 00 2e 72 65 6c 2e 74 65 78 74 00 2e 64 61 
i [|ab..rel.text..da 
|000000c0 74 61 00 2e 62 73 73 00 00 00 00 00 00 00 00 00 
eS Se ono oae 








: 000000d0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 


i 000000£0 1f 00 00 00 01 00 00 00 06 00 00 00 00 00 00 00 


: 00000100 34 00 00 00 2a 00 00 00 00 00 00 00 00 00 00 00 


| 00000110 04 00 00 00 00 00 00 00 1b 00 00 00 09 00 00 00 
| 00000120 00 00 00 00 00 00 00 00 bo 02 00 00 10 00 00 00 
: 00000130 06 00 00 00 01 00 00 00 04 00 00 00 08 00 00 00 


| 00000140 25 00 00 00 01 00 00 00 03 00 00 00 00 00 00 00 
: 00000150 60 00 00 00 38 00 00 00 00 00 00 00 00 00 00 00 
| 00000160 04 00 00 00 00 00 00 00 2b 00 00 00 08 00 00 00 


: 00000170 03 00 00 00 00 00 00 00 98 00 00 00 00 00 OO 00 
| 00000180 00 00 00 00 00 00 00 00 04 00 00 00 00 00 OO 00 
| 00000190 11 00 00 00 03 00 00 00 00 00 00 00 00 00 00 00 


| 000001a0 98 00 00 00 30 00 00 00 00 00 00 00 00 00 00 00 


i 00000150 01 00 00 00 00 00 00 00 01 00 00 00 02 00 00 00 
| 000001c0 00 00 00 00 00 00 00 00 08 02 00 00 80 00 00 00 
|000001d0 07 00 00 00 07 00 00 00 04 00 00 00 10 00 00 00 
| 000001e0 09 00 00 00 03 00 00 00 00 00 00 00 00 00 00 00 


| 000001f0 88 02 00 00 28 00 00 00 00 00 00 00 00 00 00 00 





00000200 01 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 
| 00000210 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 
| 00000220 00 00 00 00 03 00 01 00 00 00 00 00 00 00 00 00 
| 00000230 00 00 00 00 03 00 03 00 00 00 00 00 00 00 00 00 
| 00000240 00 00 00 00 03 00 04 00 01 00 00 00 00 00 00 00 
| 00000250 00 00 00 00 00 00 03 00 Oc 00 00 00 Oe 00 00 00 


i 00000260 00 00 000000000100 17 00 00 00 23 00 00 00 


: 00000270 00 00 00 00 00 00 01 00 21 00 00 00 00 00 00 00 


i 00000280 00 00 00 00 10 00 01 00 00 64 61 74 61 5f 69 74 


: 00000290 65 6d 73 00 73 74 61 72 74 5f 6c 6f 6f 70 00 6c 
i [ems.start_loop.1 
80/0/9/0 0 230 Gre Cie 7/0) Sie Ge Wisi OS) 74 CO oie 7S 74 Gil 72 7A OO 
JC ODLEXLE. Starts 
:000002b0 08 00 00 0001 02 00 00 17 00 00 00 01 02 00 00 















































左边 一 列 是 文件 中 的 地 址 ， 中 间 是 每 个 字 节 的 16 进 制 表示 ， 右 边 是 把 这 些 字 节 解释 成 ASCII 码 所 
对 应 的 字符 。 中 间 有 一 个 * 号 表示 省 略 的 部 分 全 是 0。.aata 段 对 应 的 是 这 一 块 : 


















































: 00000060 03 00 | 00 43 00 00 00 22 00 00 00 de 00 00 00 

a] USE o MN ee NS 

: 00000070 2d o 00 4b 00 00 00 36 00 00 00 22 00 00 00 |- 
rT 





























这 一 段 将 来 要 原封 不 动 地 加 载 到 内 存 中 ， 比 如 加 载 到 内 存 地 址 的 0x0804 90a0~0x0804 90d7 。 
第 一 个 数 3 由 四 个 字 节 组 成 ; 





























0x0804 90a0 


0x0804 9021 


0x0804 90a2 
0x0804 9023 




















这 说 明 什么 呢 ? 说 明 这 四 个 字 市 不 能 按 地 址 从 低 到 高 的 顺序 看 成 0x03000000 ， 而 要 按 地 址 从 高 
到 低 的 顺序 看 成 0x00000003。 也 就 是 说 ， 低 地 址 保存 的 是 整数 的 低位 ， 这 种 字 节 序 (Byte 
Order) 称 为 小 端 (Little Endian) 。 翻 回 上 面 看 看 ， 我 们 的 ELF Header 里 面 也 提 到 了 Ilittle 
endian ， 这 说 明 另 外 一 些 平台 不 是 这 样 规定 的 ， 而 是 低地 址 保存 整数 的 高 位 ， 称 为 大 端 (Big 
Endian) 。 我 们 在 后 面 章 节 中 还 会 碰 到 字 节 序 的 问题 。 












































































































































.shstrt ab 和 strtab 这 两 个 Section 存放 的 都 是 ASCII 码 


| 00 28 73 TS Gol T GL G2 
ind lere soe cs seca symtab 

:000000a0 00 2e 73 74 72 74 61 62 00 2e 73 68 73 74 72 74 
nals 
C0000030 GL 62 00 26 712 65 0e 28 T G3 VS VA 00 2e 6i Gi 
i |ab..rel.text..da 
OOOUOeO Wael 00 eO 


00 64 61 74 61 5f 69 74 


: 00000290 65 6d 73 00 73 74 61 72 74 5f 6c 6f 6f 70 00 6c 
ens- grart loop 
P 0000020 Gi Gi 79 Sit GS 73 69 74 OO sx YS. 74 Gl 72 T4 OO 
P ||exejer- salis 5 SIEGAL 4 
























































用 到 的 符号 的 名 字 。 每 个 名 














见 .shstrtab 中 保存 着 各 Section 的 名 字 ，.strtab 中 保存 着 程 月 
邹 是 以 \0' 结 尾 的 字符 串 。 


门 知道 ，C 语 言 的 全 局 变量 如 果 在 代码 中 没有 初始 化 ， 就 会 在 程序 加 载 时 用 0 初始 化 。 这 种 数 
属于 .bss 段 ， 在 加 载 时 它 和 .aata 段 一 样 都 是 可 读 可 写 的 数据 ， 但 是 在 ELF 文 件 中 .aata 段 需要 
用 一 部 分 空间 保存 初始 值 ， 而 .bss 段 则 不 需要 。 也 就 是 说 ，.bss 段 在 文件 中 只 占 一 个 Section 
ader 而 没有 对 应 的 Section ， 程 序 加 载 时 .bss 段 占 多 大 内 存 空间 在 Section Header 中 描述 。 在 
门 这 个 例子 中 没有 用 到 .bss 段 ， 以 后 我 们 会 看 到 这 样 的 例子 。 


门 继续 分 析 reaae1f 输 出 的 最 后 部 分 ， 是 从 .rel.text 和 .symtab 这 两 个 Section ae HS 
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ci Se 


o 












































pRolocationmgscctlon “orel text aw ORBEL a) x2b0 contaimng s2ment nics: 
| Offset Info Type Sym.Value Sym. Name 
: 00000008 00000201 R 386 32 00000000 .data 
:00000017 00000201 R 386 32 00000000 .data 
: There are no unwind sections in this file. 
: Symbol table '.symtab' contains 8 entries: 
i Num: Value Size Type Bind Vis Ndx Name 
0: 00000000 O0 NOTYPE LOCAL DEFAULT UND 
1: 00000000 0 SECTION LOCAL DEFAULT ili 
2: 00000000 0 SECTION LOCAL DEFAULT 3 
3: 00000000 0 SECTION LOCAL DEFAULT 4 
4: 00000000 0 NOTYPE LOCAL DEFAULT 3 data_items 
5: 0000000e 0 NOTYPE LOCAL DEFAULT 1 start_loop 
6: 00000023 0 NOTYPE LOCAL DEFAULT 1 loop_exit 
7: 00000000 0 NOTYPE GLOBAL DEFAULT 1 _start 
: No version information found in this file. 












































.rel.text 告 诉 链接 器 指 今 




































































址 ， 在 目标 文件 中 ， 
于 .aata 段 的 开头 ， 所 以 地 址 是 0， _s 
art_loop 和 1oop_exit 相 对 于 .text 段 的 地 址 就 不 是 0 了 























的 哪些 地 方 需要 重 定位 ， 我 们 在 下 一 节 讨 论 。 


.symtab 是 符号 表 。Nax 列 是 每 个 符号 所 在 的 Section 编 号 ， 例 如 aata_items 在 第 3 个 Section 里 

(也 就 是 .aata) ， 各 Section 的 编号 见 Section Header Table 。value 列 是 每 个 符号 所 代表 的 地 
符号 地 址 都 是 相对 于 该 符号 所 在 Section 的 相对 地 址 ， 比 如 aata_items 位 
eart 位 于 .text 段 的 开头 ， 月 
o 从 Bind 这 一 列 可 以 看 出 _start 这 个 























以 地 址 也 是 0， 但 

































































现在 剩 下 .text 段 没有 分 析 ， objdump 工 具 可 以 把 程序 
么 反 汇 编 的 结果 









































的 机 器 指令 反 汇 编 (Disassemble) ， 那 
是 和 否 跟 原来 写 的 汇编 代码 一 模 一 样 呢 ? 我 们 对 比分 析 一 下 。 














日 

FESt 

符号 是 cLosaL 的 ， 而 其 它 符 号 是 LocaAL 的 ，cLoBAL 符 号 是 在 汇编 程序 中 用 .glob1i 指 示 声 明 过 的 符 
B 

5 





: $ objdump -d max.o 


| max.o: file format elf32-i386 


| Disassembly of section .text: 


| 00000000 « start»: 


98 lex 00 00 00 00 mov 
e 8b 04 bd 00 00 00 00 mov 
ER SIONIS mov 

: 0000000e «start loop»: 

' e: 83 £8 00 cmp 
iis 74 10 je 
Tz 47 inc 
14: 8b 04 bd 00 00 00 00 mov 
digs 39 d8 cmp 
idi 7e ef jle 
dl38 8 3 G3 mov 
All 8 eb eb jmp 

: 00000023 «loop exit»: 

i 235 b8 01 00 00 00 mov 
ZB Sel SU int 


$0x0, sedi 


0x0 (, šedi, 4), %eax 


S$eax, %ebx 


$0x0, %eax 


23 <loop_exit> 


%edi 


0x0 (,%edi, 4), %eax 


%ebx, %eax 


e «start ] 


S$eax, sebx 


e «start ] 


$0x1l,$eax 
$0x80 


loop» 





loop» 




















左边 是 机 需 指 令 的 字 节 ， 右 边 是 反 汇 编 结 果 。 显 然 


TWN 9 











3， 注 意 没有 加 $ 的 数 表示 内 存 地 址 ， 而 不 表示 立即 数 。 这 条 指令 后 面 的 < 
名 称 ， 写 在 后 面 是 为 了 有 











的 一 部 分 ， 而 是 反 汇 编 右 从 .symtab 和 .str 
性 。 
地 址 ， 下 





















































EB EEG eT, f 











AUN 





cab 查 到 的 符号 


目前 所 有 的 跳 转 指 令 和 内 存 访问 指令 (mov 0x0(, edi, 4) , eax) 











所 有 的 符号 都 被 蔡 换 成 地 址 了 ， 比 如 je 

















oop_exit> 并 不 是 指令 








的 地 址 都 改 成 加 载 时 的 内 存 地 址 ， 这 些 














好 的 可 读 
的 地 址 都 是 符号 的 相对 


TEIL. 






































a 





正确 执行 。 
5.2. 可 执行 文件 


现在 我 们 按 上 一 区 的 步骤 分 析 可 执行 文件 nax， 看 看 链接 邵 都 做 了 什么 改动 。 




















ER Header: 
! Magic: JE 4S 4de 446 0 oL ML 00 00 00 00 00 00 00 00 00 


Class: ELF 32 

Data: 2's complement, little endian 
Version: 1 (current) 

OS/ABI: UNIX - System V 

ABI Version: 0 

Type: EXEC (Executable file) 
Machine: Intel 80386 

Version: 0x1 

Entry point address: 0x8048074 

Start of program headers: 52 (bytes into file) 
Start of section headers: 256 (bytes into file) 
Flags: 0x0 

Size of this header: 52 (bytes) 

Size of program headers: 32 (bytes) 

Number of program headers: 2 

Size of section headers: 40 (bytes) 

Number of section headers: 6 


Section header string table index: 3 


: Section Headers: 








| [Nr] Name Type Addr Oise Size ES 
: Flg Lk Inf Al 

[ @ NULL 00000000 000000 000000 00 
: 0 0 O 

: [ 1] .text PROGBITS 08048074 000074 00002a 00 
:AX 0 (EA 

i [ 2] .data PROGBITS 08049080 0000a0 000038 00 
:WA 0 Q9 d 

[ 3] .shstrtab STRTAB 00000000 000048 000027 00 
:0 Q 3 

4] .symtab SYMTAB 00000000 0001f£0 0000a0 10 
b 5 6 4 

SIS aD STRTAB 00000000 000290 000040 00 
:0 Q al 


pkey TO Mlagss 
: W (write), A (alloc), X (execute), M (merge), S (strings) 

I (info), L (link order), G (group), x (unknown) 

O (extra OS processing required) o (OS specific), p (processor 
: Specific) 


: There are no section groups in this file. 


| Program Headers: 


: Type Offset VirtAddr PhysAddr FileSiz MemSiz  Flg 
' Align 

LOAD 0x000000 0x08048000 0x08048000 0x0009e 0x0009e R 

; E 0x1000 

: LOAD 0x0000a0 0x080490a0 0x080490a0 0x00038 0x00038 RW 





: 0x1000 
Section to Segment mapping: 
Segment Sections... 
00 .text 
01 .data 
! There is no dynamic section in this file. 
"There are no relocations in this file. 


i There are no unwind sections in this file. 


; Symbol table '.symtab' contains 10 entries: 


Num: Value Size Type Bind Vis Ndx Name 


















































0: 00000000 0 NOTYPE LOCAL DEFAULT UND 

1: 08048074 0 SECTION LOCAL DEFAULT 1 

2: 080490a0 0 SECTION LOCAL DEFAULT 2 

3: 080490a0 0 NOTYPE LOCAL DEFAULT 2 data_items 
4: 08048082 0 NOTYPE LOCAL DEFAULT 1 start_loop 
5: 08048097 0 NOTYPE LOCAL DEFAULT 1 loop_exit 
6: 08048074 0 NOTYPE GLOBAL DEFAULT l| . SEGUI 

7: 080490d8 0 NOTYPE GLOBAL DEFAULT ABS _ bss start 
8: 080490d8 0 NOTYPE GLOBAL DEFAULT ABS  edata 

9: 080490d8 0 NOTYPE GLOBAL DEFAULT ABS end 











i No version information found in this file. 

















在 ELF Header E Type 改 成 了 EXEC ， 由 目标 文件 变 成 可 执行 文件 了 ， Entry point address 改 
成 了 0x8048074 (这 是 _start 符 号 的 地 址 ) , 还 可 以 看 出 ， 多 了 两 个 Program Header， 少 了 两 
个 Section Header。 





























在 Section Header Table 中 ，.text 和 .qata 的 加 载 地 址 分 别 改 成 了 0x0804 8074 和 0x0804 
90a0。 .bss 段 没有 用 到 ， 所 以 被 删 掉 了 。 .rel.text 段 就 是 用 于 链接 过 程 的， 链接 完了 就 没 用 
了 ， 所 以 也 删 掉 了 。 


多 出 来 的 Program Header Table 描 述 了 两 个 Segment 的 信息 。.text 段 和 前 面 的 ELF 

Header. Program Header Table 一 起 组 成 一 个 Segment (Filesiz 指 出 总 长 度 

是 0x9e) ，.aata 段 组 成 另 一 个 Segment (总 长 度 是 0x38) 。virtadar 列 指出 第 一 

个 Segment 加 载 到 虚拟 地 址 0x0804 8000 (注意 在 x86 平 台 上 后 面 的 physaaar 列 是 没有 意义 

的 ) ， 第 二 个 Segment 加 载 到 地 址 0x0804 90a0 。Flg 列 指出 第 一 个 Segment 的 访问 权限 是 可 读 
可 执行 ， 第 二 个 Segment 的 访问 权限 是 可 读 可 写 。 最 后 一 列 Align 的 值 0x1000 (4K) 是 x86 平 台 
的 内 存 页 面 大 小 。 在 加 载 时 文件 也 要 按 内 存 页 面 大 小 分 成 若干 页 ， 文 件 中 的 一 页 对 应 内 存 中 的 

一 页 ， 对 应 关系 如 下 图 所 示 。 


























































































































































































































图 18.2. 文件 和 加 载 地 址 的 对 应 关系 





0804 8000 
EA 0804 809e Pagel 
+ r-x 
3 0804 9000 
Page2 


0804 90a0 


segment 2 | n 
= 0804 90d8 














这 个 可 执行 文件 很 小 ， 总 共 也 不 超过 一 页 大 小 ， 但 是 两 个 Segment 必 须 加 载 到 内 存 中 两 个 不 同 
的 页 面 ， 因 为 MMU 的 权限 保护 机 制 是 以 页 为 单位 的 ， 一 个 页 面 只 能 设置 一 种 权限 。 此 外 还 规定 
每 个 Segment 在 文件 页 面 内 偏 移 多 少 加 载 到 内 存 页 面 仍 然 偏 移 多 少 ， 比 如 第 二 个 Segment 在 文 
件 中 的 偏 移 是 0xa0 ， 在 内 存 页 面 0x0804 9000 中 的 偏 移 仍 然 是 0xa0， 所 以 是 从 0x0804 90a0 开 
始 ， 这 样 规定 是 为 了 简化 链接 器 和 加 载 器 的 实现 。 从 上 图 也 可 以 看 出 .text 段 的 加 载 地 址 应 该 
是 0x0804 8074， 也 正 是 _start 符 号 的 地 址 和 程序 的 入 口 地 址 。 


原来 目标 文件 符号 表 中 的 value 都 是 相对 地 址 ， 现 在 都 改 成 绝对 地 址 了 。 此 外 还 多 了 三 个 符 
^y bs sS start^ _edatafll_ena 5 这 些 是 和 链接 过 程 YE Ss 的 > MESE HJ 以 利 用 这 些 信息 




































































































































































































































































把 





























改 了 吗 ? Ha 
EWE ? 


} 























的 相对 地 址 
目标 文件 的 指令 是 这 样 : 





.bss 段 初始 化 为 0。 
再 看 一 下 反 汇 编 的 结 








Nm 
au 





: $ objdump -d max 


! max: 


| Disassembly of section 


i 08048074 


8048074: 
8048079: 


file format elf32-1i386 


.text: 


« start»: 
bf 00 00 00 00 
8b 04 bd a0 90 04 08 


: 0x80490a0 (,$edi,4),$eax 


8048080: 


: 08048082 


8048082: 
8048085: 
8048087: 
8048088: 


SION CS 


«start loop»: 
83 3c} OW 


8b 04 bd a0 90 04 08 


; 0x80490a0(, šedi, 4) , Seax 


804808f: 
8048091: 
8048093: 
8048095: 


: 08048097 


8048097: 
804809c: 


39 d8 
Ia Sie 
Somes 
eb eb 


<loop_exit>: 
b8 01 00 00 00 
cd 80 


mov 
mov 


mov 


cmp 

je 

inc 
mov 


cmp 
jle 
mov 
jmp 


mov 
int 


$0x0, sedi 


Seax, Sebx 


$0x0,$eax 
8048097 «loop exit» 
$edi 


Sebx, Seax 
8048082 <start_loop> 
S$eax, sebx 
8048082 <start_loop> 


SOx1, eax 
$0x80 





























all ga AO je 
iels 7e ef jle 
21 eb eb jmp 
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再 看 内 存 访 问 指令 


因为 跳 转 指令 




















都 改 成 绝对 地 址 了 。 我 们 仔细 检查 一 下 都 改 了 哪些 地 方 。 


23 <loop_exit> 
e <start_loop> 


e <start_loop> 


jle 


jmp 


只 是 反 汇 编 的 结果 不 同 了 ， 指 令 根本 没 改 。 为 什么 不 用 改 指 


























指定 的 是 相对 于 当 前 指 




















内 存 地 址 有 32 位 ， 














这 称 为 相对 跳 转 。 








， 原 来 





= 
on 
my 
> 
fea 
ig 
Ii» 
Ib 


目标 文件 























首先 看 跳 转 指令 ， 


















8048097 <loop_exit> 
8048082 <start_loop> 


8048082 <start_loop> 











令 就 能 跳 转 到 新 的 地 











令 向 前 或 癌 后 跳 多 少 字 节 ， 而 不 是 指定 一 个 完整 
这 些 跳 转 指 令 只 有 16 位 ， 显 然 











也 不 可 能 指定 一 个 完整 的 内 存 地 





5R 8b 04 bd 00 00 00 00 


8b 04 bd 00 00 00 00 


0x0 (, Se 


di,4),$eax 


Ox0O(,$edi,4),$eax 








: 8048079: gb 04 bd a0 90 04 08 mey 
: 0x80490a0(,$edi,4),$eax 
: 8048088: gb 04 bd a0 90 04 08 moy 
: 0x80490a0 (, šedi, 4) , eax 



























































指令 中 的 地 址 原本 是 0x0000 0000， 现 在 改 成 了 0x0804 09a0 (注意 是 小 端 字 市 序 ) 。 那 么 链接 
化 怎么 知道 要 改 这 两 处 呢 ?” 是 根据 原来 目标 文件 中 的 .rel .text 段 提供 的 重 定位 信息 来 改 的 : 















































| Offset Info Type Sym.Value Sym. Name 
: 00000008 00000201 R 386 32 00000000 .data 
: 00000017 00000201 R 386 32 00000000 .data 









































第 一 列 offset 的 值 就 是 .text 段 需要 改 的 地 方 ， ÍE .texc Et 
指令 中 00 00 00 00 的 位 置 。 





























的 相对 地 址 是 8 和 0x17， 正 是 这 两 条 
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[25] Segment 也 可 以 翻译 成 “ 段 "， 为 了 避免 混淆 ， 在 本 书 中 
接 用 英文 。 


叫 Section 称 为 段 ， 而 Segment 直 


下 一 页 


第 19 章 汇编 与 C 之 间 的 关系 








第 19 章 汇编 与 C 之 间 的 关系 






. 少数 调用 
2. main Phat AUR p fé 
Em if 局 









zm 


yx FA 


6. volatile hE xe fT 
上 一 章 我 们 学 习 了 汇编 的 一 些 基 础 知识 ， 本 章 我 们 进一步 研究 C 程 序 编译 之 后 的 汇编 是 什么 样 


的 ，C 语 言 的 各 种 语法 分 别 对 应 什么 样 的 指令 ， 从 而 更 深入 地 理解 C 语 言 。gcc 还 提供 了 一 种 语 
法 可 以 在 C 语 言 中 内 符 汇 编 指 令 ， 这 在 内 核 代 码 中 很 钟 见 ， 本 章 也 会 简要 介绍 这 种 用 法 。 


1. ex Ca FA 


第 19 & 汇编 与 C 之 间 的 关系 





1. 因数 调用 
我 们 用 下 面 的 代码 来 研究 阴 数 调用 的 过 程 。 





FH. 





例 19.1. 研究 函数 的 调用 过 程 





ET 


il 

int e = C + d; 
| return e; 

i } 

"unt £oo(int a, int b) 
Pd 

return bar(a, b); 
ty 

| int main (void) 

i { 

OO) (Ap 3) P 

; return 0; 

P 
































如 果 在 编译 时 加 上 -9 选项 (在 第 10 E gdb 讲 过 -g 选 项 ) ， 那 么 用 objdaump 反 汇编 时 可 以 把 C 代 三 
和 汇编 代码 穿插 起 来 显示 ， 这 样 C 代 码 和 汇编 代码 的 对 应 关系 看 得 更 清楚 。 反 汇编 的 结果 很 长 ， 
以 下 只 列 出 我 们 关心 的 部 分 。 


|: $ gcc main.c -g 
: $ objdump -dS a.out 





















































: 08048394 «bar»: 
B alione lovee (aime CG, slime Gl) 


B 
; 8048394: 55) push sebp 
8048395: 89 e5 mov Sesp, sebp 
8048397: 83 ec 10 sub $0x10,$esp 
augde e = (€ a Ch 
804839a: Sig 55 We mov Oxc($ebp),$edx 
804839d: 8b 45 08 mov 0x8 (Sebp) , eax 
80483a0: 01 dO add Sedx, Seax 
80483a2: 89 45 fc mov Seax, —0x4 (Sebp) 
return e; 
80483a5: 8b 45 fc mov -0x4 (Sebp) ,%eax 
:] 
80483a8: c9 leave 
80483a9: (e ret 


| 080483aa «foo»: 


Sant £OC(imt a, ime 19) 


Pd 

: 80483aa: 55 push %ebp 
80483ab: 89 e5 mov $esp,$ebp 
80483ad: 83 ec 08 sub $0x8,£esp 


return bar(a, b); 
80483b0: 8b 45 Oc mov Oxc (Sebp) , eax 


80483b3: 89 44 24 04 mov Seax, 0x4 (Sesp) 


80483b7: 8b 45 08 mov 0x8 (Sebp) , eax 
80483ba: 89 04 24 mov $eax, (esp) 
: 80483bd: SONO E TE ft ff call 8048394 <bar> 
E 
: 80483c2: c9 leave 
80483c3: c3 ret 


: 080483c4 «main»: 


: int main(void) 


: { 
: 80483c4: 8d 4c 24 04 lea 0x4 (Sesp) , %ecx 
: 80483c8: 83 e4 £0 and SOxfffffff0,S$esp 
: 80483cb: i “Jal ee pushl  -0x4($ecx) 
; 80483ce: 55 push %ebp 
: 80483cf: 89 e5 mov Sesp, sebp 
: 80483d1: 51 push %ecx 
: 8048382: 83 ec 08 sub S0x8,%esp 
foo(2, 3); 
: 80483d5: c7 44 24 04 03 00 00 movil $0x3, 0x4 (Sesp) 
: 80483dc: 00 
: 80483dd: c7 04 24 02 00 00 00 movil $0x2, (sesp) 
: 80483e4: SB cl ££ £E Ft call 80483aa «foo» 
i return 0; 
: 80483e9: b8 00 00 00 00 mov $0x0,$eax 
EH 
; 80483ee: 83 c4 08 add $0x8,%esp 
80483f1: 59 pop %ecx 
80483f2: 5d pop $ebp 
80483£3: Sel Gil 1e lea -0x4 (Secx) , esp 
80483f6: €S ret 



































要 查看 编译 后 的 汇编 代码 ， 其 实 还 有 一 种 办 法 是 gce -s main.c， 这 样 只 生成 汇编 代码 main .s， 
而 不 生成 二 进 制 的 目标 文件 。 



















































































整个 程序 的 执行 过 程 是 main 调 用 foo， foo 调 用 bar， 我 们 用 sab 跟 踩 程序 的 执行 ， 直到 bar 郴 数 



































Mint e = c + d; 语 句 执行 完毕 准备 返回 时 ， 这 时 在 ggb 中 打印 函数 栈 帧 。 








; (gdb) start 

‘main () at main.c:14 

: 14 fs R2 PEN 

i (gdb) s 

: foo (a=2, b=3) at main.c:9 

i 9 return bar(a, b); 
(gdb) s 

"Dane o2 63) at Te ONG 

S9 int e = c + d; 


! (gdb) disassemble 
‘Dump of assembler code for function bar: 


; 0x08048394 <bar+0>: push %ebp 

: 0x08048395 <bar+1>: mov Sesp, sebp 

; 0x08048397 <bart+3>: sub $0x10,%esp 

: 0x0804839a <bar+6>: mov Oxc (Sebp) , $edx 
; 0x0804839d <bar+9>: mov 0x8 (Sebp) , eax 
:0x080483a0 <bar+12>: add Sedx, seax 

; 0x080483a2 <bar+14>: mov $eax, -0x4 (Sebp) 
: 0x080483a5 <bar+17>: mov -0x4 (%ebp) , eax 
; 0x080483a8 <bar+20>: leave 

: 0x080483a9 <bar+21>: ret 

! End of assembler dump. 

: (gdb) si 

; 0x0804839d 3 ie ee Wen € 
: (gdb) si 

; 0x080483a0 3 is GS © €} 
i! (gdb) si 

: 0x080483a2 3 ioe 6 = @ + € 


(o) ei 


return e; 
gdb) si 


nn 一 A 


: } 

: (gdb) bt 

O bar co gore 

|! 41 0x080483c2 in foo (a=2, b=3) at main.c:9 
i #2 0x080483e9 in main () at main.c:14 





: (gdb) info registers 

i eax 0x5 5 

: ecx Oxbff1c440 -1074674624 

i edx 0x3 3 

: ebx 0xb7fe6ff4 -1208061964 

i esp Oxbfflc3f4 Oxbfflc3f4 

: ebp Oxbff1c404 Oxbf£1c404 

est 0x8048410 134513680 

' edi 0x80482e0 134513376 

: eip 0x80483a8 0x80483a8 <bar+20> 

: eflags 0x200206 [ PF IF ID ] 

es 0x73 115 

iss Ox7b 123 

i ds 0x7b 123 

| es 0x7b 123 

ES 0x0 0 

‘gs 0x33 51 

: (gdb) x/20 $esp 

: Oxb£f1c3f4: 0x00000000 Oxbfflc6f7 Oxb7efbdae 
; 0x00000005 

: Oxbff1c404: Oxbfflc414 0x080483c2 0x00000002 
; 0x00000003 

: Oxbff1c414: Oxbff1c428 0x080483e9 0x00000002 
; 0x00000003 

: Oxbf£f1c424: Oxbfflc440 Oxbfflc498 0xb7ea3685 
; 0x08048410 

: Oxbf£f1c434: 0x080482e0 Oxbff1c498 0xb7ea3685 
: 0x00000001 

: (gdb) 




















这 里 又 用 到 几 个 新 的 sab 命 令 。 qisassemble 可 以 反 汇 编 当 前 函数 或 者 指定 的 函数 ， 单独 
用 aisassemble 命 令 是 反 汇 编 当 前 也 数 ， 如 果 ai sassemble 命 令 后 面 跟 函 数 名 或 地 址 则 反 汇 编 指 定 
的 函数 。 以 前 我 们 讲 过 step 命 令 可 以 一 行 代码 一 行 代 码 地 单 步 调试 ， 而 这 里 用 到 的 si 命令 可 以 
条 指令 一 条 指令 地 单 步调 试 。info registers 可 以 显示 所 有 寄存 需 的 当前 值 。 在 gab 表示 寄 
存 需 名 时 前 面 要 加 个 s， 例 如 pb seso] LAF Mese AAEE, £E iesp 寄 存 器 的 值 
是 0xbff1c3f4， 所 以 x/20 sesp 命 令 查看 门 存 中 从 0xbff1c3f4 地 址 开始 的 20 个 32 位 数 。 在 执行 程 
序 时 ， 操 作 系 统 为 进程 分 配 一 块 栈 空间 来 存储 函数 栈 帧 ，esp 寄 存 器 总 是 指向 栈 硕 ， 在 x86 平 台 
上 这 个 栈 是 从 高 地 址 向 低地 址 增长 的 ， 我 们 知道 每 次 调用 一 个 函数 都 要 分 配 一 个 栈 帧 来 存储 参 
数 和 局 部 变量 ， 现 在 我 们 详细 分 析 这 些 数据 是 怎么 存储 的 ， 根 据 sap 的 输出 结果 图 示 如 下 [26]; 



















































































































































































































































































图 19.1. 函数 栈 帧 


main 
ER E 


epum) fatehi 


bfflc4ic 
bff1c418 
bfflc414 
bfflc410 
bfflc40c 
bfflc408 
bfflc404 
bfflc400 


ebplfoo) 一 一 一 一 


foork £i 
A etl 


esp(foo) 
80483c2 P 


ebp(bar)= = = — 


bfflc3fc 
bff1c3f8 
bff1c3f4 


barby £t 
的 栈 帆 


esp(bar) 





低地 tt 









































图 中 每 个 小 方 格 占 4 个 字 节 ， 例 如 b: 3 这 个 方 格 占 的 内 存 地 址 是 0xbf822d20~0xbf822d23 。 我 们 
从 main 函 数 的 这 里 开始 看 起 : 














































































































EOON(2 Sg 
80483d5: c7 44 24 04 03 00 00 movi $0x3, 0x4 (Sesp) 
80483dc: 00 
80483dd: c7 04 24 02 00 00 00 movl $0x2, (Sesp) 
80483e4: SION GINE ON fs call 80483aa «foo» 
return 0; 
80483e9: b8 00 00 00 00 mov $0x0, teax 
要 调用 函数 foo 先 要 把 参数 准备 好 ， 第 二 个 参数 保存 在 ssp+4 所 指向 的 内 存 位 置 ， 第 一 个 参数 保 
存在 ssp 所 指向 的 内 存 位 置 ， 可 见 参数 是 从 右 向 左 依次 压 栈 的 。 然 后 执行 call 指 令 ， 这 个 指令 有 
两 个 作用 : 
































1. foo 郑 数 调用 完 之 后 要 返回 call 的 下 一 条 指令 继续 执行 ， 所 以 把 call 的 下 一 条 指令 的 地 


址 0x80483e9 压 栈 ， 同 时 把 esp 的 值 减 4，esp 的 值 现在 是 0xbf822d18。 
2. 修改 程序 计数 器 eip， 跳 转 到 foo 隙 数 的 开头 执行 。 
现在 看 foo 通 数 的 汇编 代码 : 


























CHE BOOM EI a; iae D) 


80483aa: 55 push %ebp 
80483ab: 89 e5 mov Sesp,sebp 
80483ad: 83 ec 08 sub $0x8,£esp 




















AZ 
RH] 


传送 给 ebp 寄存 器 。 换 名 话说 就 








首先 将 ebp 寄存 器 的 值 压 栈 ， 同 时 把 esp 的 值 再 减 4，esp 的 值 现在 是 0xbf822d14， 然 后 把 这 个 值 
是 把 原来 epp 的 值 保存 在 栈 上 ， 然 后 义 给 epp 赋 了 新 值 。 在 每 个 也 
数 的 栈 帧 中 ，ebp 指 向 栈 底 ， 而 ssp 指 向 栈 项 ， 在 函数 执行 过 程 中 esp 随 着 压 栈 和 出 栈 操作 随时 变 
化 ， 而 sbp 是 不 动 的 ， 函 数 的 参数 和 局 部 变量 都 是 通过 ebp 的 值 加 上 一 个 偏 移 量 来 访问 的 ， 例 

如 foo 通 数 的 参数 a 和 pb 分 别 通 过 epp+8 和 epp+12 来 访问 ， 所 以 下 面 的 指令 把 参数 a 和 pb 再 次 压 栈 ， 


为 调用 bar 哨 数 做 准备 ， 然 后 把 返回 地 址 压 栈 ， 调 用 par 椭 数 : 





















































































































































return bar(a, 


80483b0: So 45 Oe mov Oxc (Sebp) , eax 
80483b3: 89 44 24 04 mov seax, 0x4 (Sesp) 


80483b7: 8b 45 08 mov 0x8 (Sebp) , eax 




















80483ba: 89 04 24 mov $eax, (Sesp) 
80483bd: S CA ARR RIR ARR call 8048394 <bar> 
现在 看 bar 函 数 的 指令 : 

| int bar(int c, int d) 

SEC 
8048394: 55 push Sebp 
8048395: 89 e5 mov Sesp,sebp 
8048397: 83 ec 10 sub $0x10,$esp 

augue © = © s ip 

804839a: Slo ONG mov Oxc($ebp),$edx 
804839d: 8b 45 08 mov 0x8 (Sebp) , eax 
80483a0: 01 dO add Sedx, Seax 
80483a2: 9o9 v5 Te mov Seax, —0x4 (Sebp) 



































这 次 又 把 too 函数 的 sbp 压 栈 保 存 ， 然 后 给 sbp 赋 了 新 值 ， 指 向 par 函数 栈 帧 的 栈 底 ， 通 

过 epp+8 和 epp+12 分 别 可 以 访问 参数 c 和 a。 bar 晒 数 还 有 一 个 局 部 变量 。， 可 以 通过 ebp- 4 来 访 
问 。 所 以 后 面 儿 条 指令 的 意思 是 把 参数 -和 a 取 出 来 存在 寄存 器 中 做 加 法 ，aaa 指 令 的 计算 结果 个 
存在 eax 寄 存 器 中 ， 再 把 eax 寄 存 器 存 回 局 部 变量 e 的 内 存单 元 。 


现在 可 以 解释 为 什么 在 sab 中 可 以 用 pt 命令 和 frame 命 令 查看 每 个 栈 帧 上 的 参数 和 局 部 变量 了 : 
URRH Ebar HAL Ra LE ebp Elbar KAA 数 和 局 部 变量 , tuf EA EI £00 PAL 
的 ebp 保存 在 栈 上 的 值 ， 有 了 fco 函 数 的 sbp， 文 可 以 找到 它 的 参 数 和 局 部 变 量 ， 也 可 以 找 

到 main 函 数 的 ebp 保存 在 栈 上 的 值 ， 因 此 各 函数 的 栈 帧 通过 保存 在 栈 上 的 spp 的 1 PEX T. 


现在 看 par 函数 的 返回 指令 : 
































J 


















































ra 




















































































































































































































return e; 


: 80483a5: 8b 45 fc mov -0x4 (Sebp) , $eax 
:] 

80483a8: c9 leave 

: 80483a9: es ret 
































barPÉZIUE Pint AIEEE ae eax Bi Fae eA, Pre sete MEI 
fleax Al {Pan o 然后 执行 1eave 指 令 ， 这 个 指令 是 函数 开头 的 push sebp 和 mov sesp, sebp Hiv 
操作 : 

1. 把 epp 的 值 赋 给 esp， 现 在 esp 的 值 是 0xbf822d04。 


2. 现在 esp 所 指向 的 栈 顶 保存 Zi £00 PR PR Zo epp , 把 
在 ssp 的 值 是 0xbf822d08。 


最 后 是 zet 指 令 ， 它 是 call 指 令 的 逆 操 作 : 


1. 现在 esp 所 指向 的 栈 顶 保存 着 返回 地 址 ， 把 这 个 值 恢复 给 sip， 同 时 esp 增 加 4， 现 在 ssp 的 
值 是 0xbf822d0c。 


2. 修改 了 程序 计数 需 sip， 因 此 跳 转 到 返回 地 址 0x80483c2 继 续 执 行 。 
地 址 0x80483c2 处 是 too 函数 的 返回 指令 : 
















































































个 值 恢 复 给 sbp， 同时 esp 增 加 4， 现 





as 























































































































80483c2: c9 leave 
80483c3: (95) ret 



































SUS PEARS, MOREE] S main PA. TERRE CA H A E ERE PEL : 
































1. 参数 压 栈 传递 ， 并 且 是 从 右 向 左 依次 压 栈 。 

2. ebp 总 是 指向 栈 帧 的 栈 底 。 

3. 返回 值 通过 eax 寄 存 器 传递 。 
这 些 规则 并 不 是 体系 结构 所 强加 的 ，ebp 寄 存 融 并 不 是 必须 这 么 用 ， 天 数 的 参数 和 返回 值 也 不 是 
必须 这 么 传 ， 只 是 操作 系统 和 编译 需 选 择 了 以 这 样 的 方式 实现 C 代 码 中 的 函数 调用 ， 这 称 


为 Calling Convention, KT Calling Convention 之 外 ， 操 作 系 统 还 需要 规定 许多 C 代 码 和 二 进 和 
指令 之 间 的 接口 规范 ， 统 称 为 AB| (Application Binary Interface) 。 


习题 
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1、 在 第 2 节 “ 自 定义 函数 " 讲 过 ，Old Style C 风 格 的 函数 声明 可 以 不 指定 参数 个 数 和 类 型 ， 这 样 
编译 器 不 会 对 函数 调用 做 检查 ， 那 么 如 果 调 用 时 的 参数 类 型 不 对 或 者 参数 个 数 不 对 会 怎么 样 
WE? 比如 把 本 节 的 例子 改 成 这 样 ; 
















































































i int main (void) 


El 

: ioo. Sp, 4 

: return 0; 

E) 

ine coline a, ime i) 

p 

: return bar(a); 
:] 

“ane bardint e ant d) 

a 

| int e =c + d; 
return e; 

RJ 











main KAH soo] f —4- 2X3, 那么 参数 a 和 vb 分 别 取 什么 值 ? 多 有 的 参数 怎么 办 ? foo 调 
用 par 时 少 了 一 个 参数 ， 那 么 参数 a 的 值 从 哪里 取得 ?请 读者 利用 反 汇 编 和 gab 目 己 分 析 一 下 。 



























































(281 Linux 为 每 一 个 新 进程 指定 的 栈 空间 的 起 始 地 址 都 会 有 些 不 同 ， 所 以 每 次 运行 这 个 程序 得 到 
的 地 址 都 不 一 样 ， 但 通常 都 是 0xbf????3? 这 样 一 个 地 址 。 
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第 19 章 汇 编 与 C 之 间 的 关系 2. main AA a IP EE 





2. main ACF Ja le 





第 19 & 汇编 与 C 之 间 的 关系 





2. main 函数 和 局 动 例 程 


为 什么 汇编 程序 的 入 口 是 _start， Doom ASH RAPES IRSE. FE 
讲 例 18.1 “最 简单 的 汇编 程序 "时 ， 我 们 的 汇编 和 链接 步骤 是 : 
































:$ as hello.s -o hello.o 
we icl hello o =0 helie 


























LIRR] É gee main.c -o main nfi 命令 编译 一 个 程序 ， 其 实 也 可 以 分 三 步 做 ， 第 一 步 生 成 汇编 
代码 ， 第 二 步 生 成 目标 文件 ， 第 三 步 生 成 可 执行 文件 : 
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| $ gcc -S main.c 
S Gee =e melno S 
iS gec main.o 





-s 选 项 生成 汇编 代码 ，- < 选项 生成 目标 文件 ， 此 外 在 第 2 节 ica 
SEEDARI AE, MRAN TEENA, HEIRE 
成 可 执行 文件 为 止 。 如 下 图 所 示 。 



































图 19.2. gcc 命 令 的 选项 


gcc 
gcc -c 


gcc -S 


main.c 





























这 些 选项 都 可 以 和 -。 搭 配 使 用 ， 给 输出 的 文件 重新 命名 而 不 使 用 scc 默 认 的 文件 名 
(xxx.c、xxx.s、 xxx.o 和 a.out ) > 例如 gcc main.o -o main 将 main.o 链 接 成 可 执行 文件 main。 
先前 由 汇编 代码 例 18.1 “最 简单 的 汇编 程序 "生成 的 目标 文件 hello.o 我 们 是 用 la 来 链接 的 ， 可 不 
可 以 用 gcc 链 接 呢 ” 试 试看 。 






































S gee halloo =o halle 

ihello.o: In function  —start': 

: (.text+0x0): multiple definition of ^ start' 

;: /usr/lib/gcc/i486-linux- 

| gd. 3.27. so ood oof lio cesblgoB(steksESOP)s First defined herse 
d usr de dgcoU MCI DUX Gia Ae y ovde ool oofa ol Lio erti- ©g Tm 
umee on ne 

|: (.text+0x18): undefined reference to ‘main' 

i collect2: ld returned 1 exit status 

















提示 两 个 错误 : 一 是 _start 有 多 个 定义 ， 一 个 定义 是 由 我 们 的 汇编 代码 提供 的 ， 另 一 个 定义 来 
H /usr/lib/crt1. o; 二 是 crt1. ol] _ start KAZ Wal main PAX, 而 我 们 的 汇编 代码 中 没有 提 

供 main 通 数 的 定义 。 从 最 后 一 行 还 可 以 看 出 这 些 错 误 提 示 是 由 1a 给 出 的 。 由 此 可 见 ， 如 果 我 们 
用 gcc 做 链接 ，gcc 其 实 是 调用 14 将 目标 文件 crt1.o 和 我 们 的 ne11o.o 链 接 在 一 起 。crt1.o 里 面 已 
经 提供 了 _start 入 口 点 ， 我们 的 汇编 程序 中 再 实现 一 个 _start 就 是 多 重 定 义 了 ， 链 接 胡 不 知道 该 
用 哪个 只 好 报错 。 另外 ， crt1.o 提 供 的 _start 需 要 调用 main 郴 BX , 而 我 们 的 汇编 程 月 CR SE 
JiümaintKZk, Prat. 


如 果 目 标 文 件 是 由 C 代 码 编译 生成 的 ， 用 gcc 做 链接 就 没 错 了 ， 整 个 程序 的 入 口 点 是 crt1.o 中 提 
供 的 _start ， 它 首先 做 一 些 初始 化 工作 (以 下 称 为 启动 例 程 ，Startup Routine) ， 然 后 调用 C 代 
码 中 提供 main KZ 所 以 ， 以 前 我 们 说 main 函 数 是 程序 的 入 口 点 其 实 不 准确 ，_start 才 是 真 
正 的 入 口 点 ， 而 main 肾 数 是 被 _start 调 用 的 。 


我 们 继续 研究 上 一 节 的 例 19.1 “研究 E 调用 六 
main 其 实 是 调用 1a 做 链接 的 ， 相 当 于 这 xt 命令 : 
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ig Ne/ US /el /en /sleet © marn.: =0 maim =le xoa 
| linker / 3,3057 Jl JL 3,0185x o X9 c 2 
































也 就 是 说 ， 除了 crt1.o 之 外 其 实 还 有 crti. o, 这 两 个 目标 文件 和 我 们 的 main.o 链 接 在 一 起 生成 可 
执行 文件 main。-1c 表 示 需 要 链接 1ipc 库 ， 在 第 1 节 “ 数 学 男 数 " 讲 过 -1c 选 项 是 scc 默 认 的 ， 不 用 
写 ， 而 对 于 1a 则 不 是 默认 选项 ， 所 以 要 写 上 。-aynamic-linker /1ib/1d-linux.so.2 指 定 动态 链 
接 胡 是 /1ib/1q-1linux.so.2， 稍 后 会 解释 什么 是 动态 链接 。 


那么 crt1.o 和 crti.o 里 面 都 有 什么 呢 ? 我 们 可 以 用 reagelf 命 令 查 看 。 在 这 
A, 如 果 只 看 符号 , Hf LAB reaaeitfi t BJ-s 选项 ， 也 可 以 用 nm 命令 。 


























































































































我 们 只 关心 符号 











Lu 














io mm /use/ bib/ertl.o 
: 00000000 R _IO_ stdin used 
: 00000000 D data start 
: UW ajo (e Eina 
U  JLalexe. CSU almas 
U libc start main 
: 00000000 R | fp hw 
: 00000000 T start 
: 00000000 W data start 
| U main 
: $ nm /usr/lib/crti.o 
i U GLOBAL OFFSET TABLE 





wW gmon_start 





: 00000000 T _fini 
| 00000000 T _init 
































U main 这 一 行 表示 main 这 个 符号 在 crtl.o 中 用 到 了 ， 但 是 没有 和 定义 (U 表 示 Undefined) ， 因 此 
需要 别 的 目标 文件 提供 一 个 定义 并 且 和 crt1.o 链 接 在 一 起 。 具 体 来 说 ， 在 crt1.o 要 用 到 main 这 
个 符号 所 代表 的 地 址 ， 例 如 有 一 条 指令 是 push $ 符 号 main 所 代表 的 地 址 ， 但 不 知道 这 个 地 址 是 多 
少 ， 所 以 在 crt1.o 中 这 条 指令 暂时 写成 busn $0x0， 等 到 和 main.o 链 接 成 可 执行 文件 时 就 知道 这 
个 地 址 是 多 少 了 ， 比 如 是 0x80483c4 ， 那 么 可 执行 文件 main 中 的 这 条 指令 就 被 链接 句 改 成 
[push $ox80483c4。 链 接 需 在 这 里 起 到 符号 解析 (Symbol Resolution) 的 作用 ， 在 第 5.2 $ 
“可 执行 文件 ?我 们 看 到 链接 融 起 到 重 定 位 的 作用 ， 这 两 种 作用 都 是 通过 修改 指令 中 的 地 址 实现 
的 ， 链 接 需 也 是 一 种 编辑 需 ，vi 和 emacs 编 辑 的 是 源 文件 ， 而 链接 需 编 辑 的 是 目标 文件 ， 所 以 链 
接 器 也 叫 Link Editor. T _start 这 一 行 表示 _ start io] M texts .0 ! 提 供 了 定义 ， 这 个 符号 的 
类 型 是 代码 (T 表 示 Text) 。 我 们 从 上 面 的 输出 结果 中 选取 几 个 符号 用 图 示 说 明 它 们 之 间 的 关 
系 : 
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HH 








图 19.3. C 程 序 的 链接 过 各 


other object file main.o 






U libc start main 





link 


T libc spart main 


























其 实 上 面 我 们 写 的 1a 命 令 做 了 很 多 简化 ，scc 在 链接 时 还 用 到 了 另外 几 个 目标 文件 ， 所 以 上 图 多 


H] J AS KE , 表示 组 成 可 执行 文件 main 的 除了 main.o、crtl.o 和 crti.o 之 外 还 有 其 它 目 标 文 件 
本 书 不 做 深入 讨论 ， 用 scc 的 -选项 可 以 了 解 详 细 的 编译 过 程 : 
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i$ gcc -v main.c -o main 

‘Using built-in specs. 

! Target: i486-linux-gnu 
/usr/lib/gcc/i486-linux-gnu/4.3.2/ccl -quiet -v main.c - 

: D_FORTIFY_SOURCE=2 -quiet -dumpbase main.c -mtune=generic 一 

: auxbase main -version -fstack-protector -0o /tmp/ccRGDpua.s 


/usr/lib/gcc/i486-linux-gnu/4.3.2/collect2 --eh-frame-hdr -m 
:elf 1386 hash-style-both -dynamic-linker /lib/ld-linux.so.2 -o 
i main -z relro /usr/lib/gcc/i486-linux- 

ODO) dec ool ael se ee Lio Chilo a, Mer ie ago e/a dedii 
和 

: gnu/4.3.2/crtbegin.o -L/usr/lib/gcc/i486-linux-gnu/4.3.2 - 

| L/usr/lib/gcc/i486-linux-gnu/4.3.2 -L/usr/lib/gcc/i486-linux- 
Ond SA ool o ol Tf a db Sty p/s oie da Gel iis 

B ly) essc lip Oo/ a. dis S TI So As S]. 2 o cd aod an dus cuivis. JJ exe 
“> [as -nesded -lgcc s --no-as-needed -lc -lgcc as-needed -1gcc s 











i: --no-as-needed /usr/lib/gcc/i486-linux-gnu/4.3.2/crtend.o 
/SrA /G/N nu n/n 
































链接 生成 的 可 执行 文件 main 中 包含 了 各 目标 文件 所 定义 的 符号 ， 通 过 反 汇 编 可 以 看 到 这 些 符号 
的 定义 : 

| 

i main: file format el1f32-1386 





| Disassembly of section .init: 


| 08048274 « init»: 
8048274: 55 push %ebp 





Sesp,sebp 
Sebx 


Sebp, sebp 
$esi 
$esp,$ecx 


Sebp 
Sesp,sebp 
$0x10, Sesp 


$ebp 
Sesp, Sebp 
$0x8,%esp 


0x4 (Sesp) , secx 
SOxfffffff0, sesp 
—0x4 (Secx) 


Sebp 
Sesp,sebp 
Sebx 


























































































































起 就 没 问题 了 。crt1.o 还 有 一 个 末 








所 以 在 可 执行 文件 main 中 仍然 






































目标 文件 一 样 链接 到 可 执行 文 






























































































































































先 碍 看 它 有 没有 需要 动态 链接 的 未 定义 符号 。 

















linker /1ib/1d-1l1inux.so.2 指 定 了 动 











8048275: 89 e5 mov 
8048277: 53 push 

| Disassembly of section .text: 

: 080482e0 <_start>: 

: 80482e0: 31 ed xor 
80482e2: 5e pop 
80482e3: 89 el mov 

: 08048394 «bar»: 

8048394: 55 push 
8048395: 89 e5 mov 
8048397: 83 ec 10 sub 

i 080483aa <foo>: 
80483aa: 55 push 
80483ab: 89 e5 mov 
80483ad: 83 ec 08 sub 

| 080483c4 «main»: 

: 80483c4: 8d 4c 24 04 lea 
80483c8: 83 e4 £0 and 
80483cb: arit Wah eg pushl 

| Disassembly OL SAC c T M SEIT 

: 0804849c < fini»: 
804849c: 59 push 
804849d: 89 e5 mov 
804849f: 53 push 

crt1.o 中 的 未 定义 符号 main 在 main.o 中 定义 了 ， 所 以 链接 在 
定义 符号 _1ibc_start_main 在 其 它 几 个 目标 文件 中 也 没有 定义 ， 
是 个 未 定义 符号 。 这 个 符号 是 在 libc 中 定义 的 ，libc 并 不 像 其 它 
件 main z 而 是 在 运行 时 做 动态 链接 : 
1. 操作 系统 在 加 载 执行 nain 这 个 程序 时 ， 首 
2. 如 果 需 要 做 动态 链接 ， 就 查看 这 个 程序 指定 了 哪些 共享 库 (我 们 用 -1c 指 定 了 lipc) 以 及 
用 什么 动态 链接 需 来 做 动态 链接 (我 们 用 -aynamic- 
AS HERE tir) 
3. 动态 链接 器 在 共享 库 中 查找 这 些 符 号 的 定义 ， 完 成 链接 过 程 。 
了 解 了 这 些 原理 之 后 ， 现 在 我 们 来 看 _start 的 反 汇 编 : 





| Disassembly of section .text: 


: 080482e0 <_start>: 


80482e0: 31 ed 
80482e2: 5e 
80482e3: 89 el 
80482e5: 83 e4 
80482e8: 50 
80482e9: 54 
80482ea: 52 
80482eb: 68 00 
80482f0: 68 10 
80482f5: 51 
80482f6: 56 
80482£7: 68 c4 
80482fc: es es 





£0 


84 
84 


83 
: dE dE 
< lioe srant Meneo 


Sebp, sebp 
Sesi 
$esp,$ecx 
SOxfffffff0,$esp 
$eax 

$esp 

Sedx 
$0x8048400 
$0x8048410 
$ecx 

$esi 
$0x80483c4 
80482c4 



































首先 将 系列 参数 压 栈 ， 然后 调用 libpc 的 库 函 数 libc_start main 做 初始 化 CIE, FA 最 后 
个 压 栈 的 参数 push $0x80483c4 X&main PK ZI HY HELE , libc_start_main 完成 初始 化 工作 之 后 会 
调用 main 函 数 。 由 于 _1ibc_start_main 和 需要 动态 链接 ， 所 以 这 个 库 函 数 的 指令 在 可 执行 文 

件 main 的 反 沪 编 中 肯定 是 找 不 到 的 ， 然 而 我 们 找到 了 这 个 : 



































































































































: 080482c4 <__libc_start_main@plt>: 





80482c4: ff 25 04 a0 04 08 jmp *0x804a004 
80482ca: 68 08 00 00 00 push $0x8 
80482cf: QS) (lU. sexe sexe ari jmp 80482a4 <_init+0x30> 











这 三 条 指令 位 于 .plt 段 而 不 是 .text 段 ，.plt 段 协助 完成 动态 链接 的 过 程 。 我 们 将 在 下 一 章 详细 
讲解 动态 链接 的 过 程 。 


main 范 数 最 标准 的 原型 应 该 是 int main(int argc, char *argv[]), 也 就 是 说 启动 例 程 会 传 两 个 
参数 给 main 函 数 ， 这 两 个 参数 的 含义 我 们 学 了 指针 以 后 再 解释 。 我 们 到 目前 为 止 都 把 main 函 数 
的 原型 写成 int main (void) ， 这 也 是 C 标 准 允 许 的 ， 如 果 你 认真 分 析 了 上 一 节 的 习题 ， 你 就 应 该 
知道 ， 多 传 了 参数 而 不 用 是 没有 问题 的 ， 少 传 了 参数 却 用 了 则 会 出 问题 。 


由 于 main 函 数 是 被 启动 例 程 调 用 的 , 所 以 从 main 函 数 return 时 仍 返 回 到 启动 例 程 Mes main PAL 
的 返回 值 被 启动 例 程 得 到 ， 如 果 将 启动 例 程 表 示 成 等 价 的 C 代 码 (实际 上 启动 例 程 一 般 是 直接 用 
汇编 写 的 ) , WUE y HH main KAIER: 












































































































































































































































i exit (main (argc, argv)); 
































EME, ASPET Emain KANAE, SAHA EMAA H exit BM. exit th 
是 1ibc 中 的 函数 ， 它 首先 做 一 些 清理 工作 ， 然 后 调用 上 一 章 讲 过 的 _exit 系统 调用 终止 进 

程 ，main 玉 数 的 返回 值 最 终 被 传 给 _exit 系 统 调 用 ， 成 为 进程 的 退出 状态 。 我 们 也 可 以 在 main 函 
数 中 直接 调用 exit 函数 终止 进程 而 不 返回 到 启动 例 程 ， 例 如 : 
































































































































| #include <stdlib.h> 


ams main(void) 
ET 
! exit (4); 


i) 
































这 样 和 int main(void) { return 4; } 的 效果 是 一 样 的 。 在 Shell ! 运 行 这 个 程序 并 查看 它 的 退 


出 状态 : 














/ome 
S echo $R 
24 























按照 惯例 ， 退 出 状态 为 0 表示 程序 执行 成 功 ， 退 出 状态 非 0 表 示 出 错 。 注 意 ， 退 出 状态 只 有 8 位 ， 
而 且 被 Shell 解 释 成 无 符号 数 ， 如 果 将 上 面 的 代码 改 为 exit (-1) ;或 return 三 下 六》 则 运行 结果 为 









































注意 ， 如 有 果 声 明 一 个 函数 的 返回 值 类 型 是 int ， 隐 数 中 每 个 分 支 控 制 流程 必须 写 return 语 句 指 定 
返回 值 ， 如 果 缺 了 return 则 返回 值 不 确定 ( 想 想 这 是 为 什么 ) ， 编 译 妖 通常 是 会 报警 告 的 ， 但 
如 果 某 个 分 支 定制 流程 调用 J exitBk exitlfl/ 3 return, 编译 需 是 允许 的 ， 因为 它 都 没有 机 会 


exit stdlib.h 








































































































返回 了 ， 指 不 指定 返回 值 也 就 无 所 谓 了 。 使 用 Pa Le AOE ， 而 使 
用 _exit 函数 需要 包含 头 文件 unista.n， 以 后 还 要 详细 解释 这 两 个 函数 。 


3. 变量 的 存储 布局 


第 19 章 汇编 与 C 之 间 的 关系 











3. 变量 的 存储 布局 
首先 看 下 面 的 例子 : 








FN 7s at 


PRE. 





例 19.2. 研 的 存储 布局 


: #include <stdio.h> 


c); 


conse ant A Po 

ne a = 20; 

D guecuence alate Jo = SOP 

bnt Gp 

i int main (void) 

i { 

static int a = 40; 

: char b[] = "Hello world"; 
| MaCGELSESG@ ime e = 5p 
printf("Hello world %d\n", 
return 0; 

i} 











a m 




















我 们 在 全 局 作用 域 和 main 函 数 的 局 部 作用 
字 const、 static、 register 来 修饰 变量 ， 

之 后 用 reaaelf 命 令 看 它 的 符号 表 ， 了 解 各 变 
地 址 从 低 到 高 的 顺序 重新 排列 了 ， 并 且 只 


ZN 


域 
那么 这 些 变量 的 存储 空间 是 怎么 分 配 的 呢 ? 我 们 编译 
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TE 





























: $ gcc main.c -g 
"o reddelfo -e AGUE 





各 定义 了 


MER 
些 变 量 ， 


并 且 引 入 一 些 新 的 关键 



































的 地 址 分 布 。 注 意 在 下 面 的 清单 中 我 把 符号 表 按 














截取 我 们 关心 的 那儿 行 。 


68: 08048540 4 OBJECT GLOBAL DEFAULT 15 A 
69: 0804a018 4 OBJECT GLOBAL DEFAULT 23 a 
52: 0804a01c 4 OBJECT LOCAL DEFAULT ZI 
53: 0804a020 4 OBJECT LOCAL DEFAULT 23 ao L599 
81: 0804a02c 4 OBJECT GLOBAL DEFAULT ZA © 





























变量 A 


输出 可 以 看 到 这 个 地 址 位 于 .rogata 段 : 





: Section Headers: 


[Nr] Name Type 
;: Flg Lk Inf Al 
| [13] .text PROGBITS 
|o gr € NG 
' TUE eese ue PROGBITS 
‘A 0 © 4 

23] .data PROGBITS 











HA const 修饰 ， 表示 A 是 只 读 的 ， 不 可 修改 ， 它 被 分 配 的 地 址 是 0x8048540， 从 readelf 的 


08048360 000360 0001bc 00 


08048538 000538 00001c 00 


08048010 001010 000014 00 







[2:23] ESTIS SIS NOBITS 08043024 001024 00000c 00 















































idis Sg me "i me 59 5 CY Cs 

eese deme e 

: 00000540 VA 00 00 00 43 Gd Ge Ge Se 20 77 Ox 72 OS GA 20 
-Hello world | 

| 00000550 25 64 0a 00 00 00 00 00 


03 00 00 00 01 00 02 00 


00 00 00 00 00 00 00 00 


























































































































作用 域 定 义 了 一 个 const 数 组 : 


ne 'NO' ); 











HB 

















旦 序 加 载运 行 时 ，. roaqata 段 和 .text 段 通常 合并 到 一 个 Segment 中 ， 操 作 系 统 将 这 





其 中 0x540 地 址 处 的 oa oo oo oo 就 是 变量 A。 我 们 还 看 到 程序 中 的 字符 串 字 面值 "aello。 world 
sd\n" 分 配 在 .roqata 段 的 末尾 ， 在 第 4 节 “字符 串 " 说 过 字符 串 字 面值 是 只 读 的 ， 相 当 于 在 全 局 


个 Segment 的 页 面具 读 保护 起 来 ， 防 止 意外 的 改写 。 这 一 点 从 readelf 的 输出 也 可 以 看 出 来 : 








Section to Segment mapping: 
Segment Sections... 


00 
01 .interp 
02 .interp .note.ABI-tag .hash .gnu.hash .dynsym .dynstr 


| .gnu.version a Cini WereSaLOin iw eae ne wel jolie sagas Ee 
|! .fini .rodata .eh frame 


03 ,Ctors .ghEowsS jer gehe Get ssot.plt selle los 
04 .dynamic 

05 .note.ABI-tag 

06 

07 CLOS OIEOLEE jee seu GOR 














主意 ， 像 a 这 种 const 变量 在 定义 时 必须 初始 化 。 因 为 只 有 初始 化 时 才 有 机 会 给 它 一 个 值 ， 



























































定义 之 后 就 不 能 再 改写 了 ， 也 就 是 不 能 再 赋值 了 。 


从 上 面 reaaelf 的 输出 可 以 看 到 .aata 段 从 地 址 0x804a010 开 始 ， 长 度 度 是 0x14， 也 就 是 到 地 
址 0x804a024 结 束 。 在 .data 段 中 有 三 个 变量 ，a，b 和 a.1589。 


a 是 一 个 GLoBAL 的 符号 ， 而 pb 被 static 关 键 字 修 饰 了 ， 导 致 它 成 为 一 个 LocaL 的 符号 ， 所 
























































































































































以 static 在 这 里 的 作用 是 声明 p 这 个 符号 为 LocaL 的 ， 不 被 链接 器 处 理 ， 在 下 一 章 我 们 会 看 到 ， 
如 果 把 多 个 目标 文件 链接 在 一 起 ，Locazi 的 符 ue 个 目标 文件 中 定义 和 使 用 ， 而 不 能 定 
义 在 一 个 目标 文件 中 却 在 另 一 个 目标 文件 中 使 用 。 一 个 前 数 定义 前 面 也 可 以 用 static 修 饰 ， 表 



























































示 这 个 函数 名 符号 是 zocaAL 的 。 





























还 有 一 个 a.1589 是 什么 NE? 它 就 是 main 函数 static int ao PRIA static 量 不 同 于 以 前 



































我 们 讲 的 局 部 变量 ， 它 并 不 是 在 调用 遂 数 时 分 配 ， 在 函数 返回 时 释放 ， 而 是 像 全 局 变量 



































Rs 








态 分 配 ， 所 以 用 “static”( 静 态 ) 这 个 词 。 另 一 方面 ， 函 数 中 的 static 变 量 的 作用 域 和 以 前 讲 的 















































局 部 变量 一 样 ， 只 在 函数 中 起 作用 ， 比 如 main 函 数 中 的 a 这 个 变量 名 只 Emain 函数 起 作用 ， 












































别 的 函数 中 说 变量 a 就 不 是 指 它 了 ， 所 以 编译 器 给 它 的 符号 名 加 了 一 个 后 级 ， 变 成 .1589， 
和 全 局 变量 a 以 及 其 它 函 数 的 变量 a 区 分 开 。 


























在 
以 便 





.bss 段 从 地 址 0x804a024 开 始 ( 紧 换 着 .aata 段 ) 
束 。 变 量 c 位 于 
个 Segment 中 ， 

















这 个 段 。 从 上 面 的 reaaelf 输 出 可 以 看 到 ， 
这 个 Segment 是 可 读 可 写 的 。 


























' 不 占 存储 空 
局 变量 如 采 不 初始 化 则 


STA], 











初 值 为 0， 同 理 可 以 推 














， 长 度 为 0xc， 也 就 是 到 地 址 0x804a030 结 


.bss 段 和 . a e 
在 加 载 时 这 个 段 用 0 填充 。 所 以 我 们 在 旨 ! 
W, statici EER 数 时 的 还 是 函数 外 的 ) 











.data 和 |. bss 在 加 载 时 合并 到 一 
.bss 段 在 文件 
上 星 " 计 过， 全 





































































如 果 不 初始 化 则 初 值 也 是 0， 也 分 配 在 .pss 段 。 








现在 还 剩 下 函数 








可 见 ， 


T. 


到 高 地 址 的 顺序 依次 是 b [0]、 


数组 元 素 b [n] 
当 n=0 时 ， 元 素 b[0 
变量 c 并 没有 在 栈 上 分 配 存 






































char b[]="Hello world"; 
8048430: e7 45 Ge 43 65 Ge be 
0x14 (Sebp) 
8048437: ey 45 £0 Gi 20 77 Git 
: 0x10 ($ebp) 
804843e: c7 45 £4 72 6c 64 00 
: Oxc (%ebp) 
1 register int c = 50; 
8048445: b8 32 00 00 00 
printf("Hello world %d\n", c); 
804844a: 89 44 24 04 
804844e: c7 04 24 44 85 04 08 
8048455: e8 e6 fe ff ff 











给 bp 初始 化 用 的 这 个 字符 囊 "Hel1o world" 并 没有 分 配 在 .roaata 段 ， 




















巴 12 个 字 节 写 到 栈 上 ， 





条 mov1 指 EXE 











图 19.4. 数组 的 存储 布局 


高 地 址 
\0 
d 
| 
r 
i ebp-Oxc 

ebp-0x10 
| 
e 

b ebp-0x14 








但 数组 总 
bi 这 样 ， 














Mu c 

















b[1]» 
的 地 址 = 数组 的 基地 址 (bp 做 右 值 就 表示 这 
] 的 地 址 就 是 数组 的 基地 址 ， 





的 b 和 c 这 两 个 变量 没有 分 析 。 上 一 节 我 们 讲 过 冰 数 的 参 
在 栈 上 的 ，b 是 数组 也 一 样 ， 也 是 分 配 在 栈 上 的 ， 我 们 看 main 哨 数 的 反 汇 编 代 码 : 


这 就 是 bp 的 存储 空 


因此 数组 下 标 : 








数 和 局 部 变量 是 分 配 


movl $0x6c6c6548,- 

movil SOx6£77206£, - 

movl $0x646c72,- 

mov $0x32,%eax 

mov Seax, 0x4 (Sesp) 

movil $0x8048544, (%esp) 
call 8048340 <printf@plt> 




















而 是 直接 写 在 指令 里 
如 下 图 所 示 。 


























[8], 


是 从 低地 址 向 高 地 址 排列 的 ， 按 从 低地 址 


个 基地 址 ) + nx 每 个 元 素 的 字 市 数 
:从 0 开始 而 不 是 从 1 开始 。 










































































储 空 














SH, MERI E eax ITA 





里 ， 后 面 调用 printf 也 是 直接 









































从 sax 寄 存 器 里 取出 c 的 值 当 参 数 压 栈 ， 这 就 是 resister 关 键 字 的 作用 ， 指 示 编 译 器 尽 可 能 分 配 
一 个 寄存 需 来 存储 这 个 变量 。 我 们 还 看 到 调用 printf 时 对 于 "Hello world sd\n" 这 个 参数 压 栈 的 











ET] 














TEE L 
































是 它 在 .redata 段 中 的 首 地 址 ， 而 不 是 把 整个 字符 串 压 栈 ， 所 以 在 第 4 TS RE, FAF 
串 在 使 用 时 可 以 看 作 数 组 名 ， 如 果 做 右 值 则 表示 数组 首 元 素 的 地 址 (或 者 说 指 疝 数 组 首 元 素 的 
) ， 我 们 以 后 讲 指针 还 要 继续 讨论 这 个 问题 。 


























































































































以 前 我 们 用 “全 局 变量 "和 “局 部 变量 "这 两 个 概念 ， 主 要 是 从 作用 域 上 区 分 的 ， 现 在 看 来 用 这 两 个 
概念 给 变量 分 类 太 党 统 了 ， 需 要 进一步 细 分 。 我 们 总 结 一 下 相关 的 C 语 法 。 
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作用 域 (Scope) 这 个 概念 适用 于 所 有 标识 符 ， 而 不 仅仅 是 变量 ，C 语 言 的 作用 域 分 为 以 下 几 
H. 




















函数 作用 域 (Function Scope) ， 标 识 符 在 整个 函数 中 都 有 效 。 只 有 语句 标号 属于 函数 作 
用 域 。 标 号 在 函数 中 不 需要 先 声明 后 使 用 ， 在 前 面 用 一 个 goto 语 句 也 可 以 跳 转 到 后 面 的 某 
个 标号 ， 但 仅 限 于 同一 个 函数 之 中 。 

























































































文件 作用 域 (File Scope) ,标识 符 从 它 声明 的 位 置 开始 直到 这 个 程序 文件 9 的 末尾 都 有 
效 。 例如 上 例 中 main 函 数 外 面 的 A、 ay by c, 还 有 main 也 算 , printf A KE Tstdio.h 1 声 
明 的 ， 被 包含 到 这 个 程序 文件 中 了 ， 所 以 也 算 文件 作用 域 的 。 


块 作用 域 (Block Scope) ， 标 识 符 位 于 一 对 人 括号 中 (函数 体 或 语句 块 ) ， 从 它 声明 的 位 
置 开始 到 右 } 插 号 之 间 有 效 。 例 如 上 例 中 main 表 数 里 的 、p、c。 此 外 ， 表 数 定义 中 的 形 参 
也 算 块 作用 域 的 ， 从 声明 的 位 置 开始 到 函数 末尾 之 间 有 效 。 


函数 原型 作用 域 (Function Prototype Scope) ,标识 符 出 现在 函数 原型 中 ， 这 个 函数 原 
型 只 是 一 个 声明 而 不 是 定义 (没有 函数 体 ) ， 那 么 标识 符 从 声明 的 位 置 开 始 到 在 这 个 原型 
末尾 之 间 有 效 。 例 如 int foo (int a, int b) ;中 的 as 和 b。 




















































































































































































































对 属于 同一 命名 空间 (Name Space) 的 重 名 标识 符 ， 内 层 作 用 域 的 标识 符 将 窗 盖 外 层 作用 域 的 
标识 符 ， 例 如 局 部 变量 名 在 它 的 函数 中 将 履 盖 重 名 的 全 局 变量 。 命 名 空间 可 分 为 以 下 几 类 : 









































语句 标号 单独 属于 一 个 命名 空间 。 例 如 在 函数 中 局 部 变量 和 语句 标号 可 以 重 名 ， 互 不 影 
响 。 由 于 使 用 标号 的 语法 和 使 用 其 它 标识 符 的 语法 都 不 一 样 ， 编 译 器 不 会 把 它 和 别 的 标识 
符 弄 混 。 


TIT 






























































struct, enum 和 union (R— Wt ZAunion) 的 类 型 Tag 属于 一 个 命名 空间 。 由 于 Tag 前 面 


总 是 带 struct > enum 或 union 关 键 字 > Bir Seas A HERR RAT SAE o 



























































struct 和 union 的 成 员 名 属于 一 个 命名 空间 。 由 于 成 员 名 总 是 通过 .或 -> 运算 符 来 访问 而 不 
会 单独 使 用 ， 所 以 编译 需 不 会 把 它 和 别 的 标识 符 弄 混 。 


所 有 其 它 标 识 符 ， 例 如 变量 名 、 通 数 名 、 宏 定义 、typedef 的 类 型 名 、enum 成 员 等 等 都 属 
于 同一 个 命名 空间 。 如 果 有 重 名 的 话 ， 宏 定义 覆盖 所 有 其 它 标 识 符 ， 因 为 它 在 预 处 理 阶 段 
而 不 是 编译 阶段 处 理 ， 除 了 安定 义 之 外 其 它 几 类 标识 符 按 上 面 所 说 的 规则 处 理 ， 内 层 作用 
域 覆 盖 外 层 作 用 域 。 




































































可 

















































































































标识 符 的 链接 属性 (Linkage) 有 三 种 : 








外 部 链接 (External Linkage) ， 如 果 最 终 的 可 执行 文件 由 多 个 程序 文件 链接 而 成 ， 一 个 
标识 符 在 任意 程序 文件 中 即使 声明 多 次 也 都 代表 同一 个 变量 或 函数 ， 则 这 个 标识 符 具 
有 External Linkage 。 具 有 External Linkage 的 标识 符 编 译 后 在 符号 表 中 是 croparz 的 符号 。 
例如 上 例 中 main 通 数 外 面 的 a 和 c<， main 和 printf 也 算 


内 部 链接 (Internal Linkage) ， 如 果 一 个 标识 符 在 某 个 程序 文件 中 即使 声明 多 次 也 都 代表 































































































同一 个 变量 或 函数 ， 则 这 个 标识 符 具 有 Internal Linkage. Aii EPP main AYN o 
如 果 有 另 一 -1 foo.c 程 序 和 main.c 链 接 在 一 起 ， 在 foo.c 中 也 声明 一 个 static int b;, WAR 
个 b 和 这 个 bp 不 代表 同一 个 变量 。 具 有 Internal Linkage 的 标识 符 编译 后 在 符号 表 中 
是 LocaAL 的 符号 ， 但 main 函 数 里 面 那 个 不 能 算 Internal Linkage 的 ， 因 为 即使 在 同一 个 程序 
文件 中 ， 在 不 同 的 函数 中 声明 多 次 ， 也 不 代表 同一 个 变量 。 


。 无 链接 (No Linkage) 。 除 以 上 情况 之 外 的 标识 符 都 属于 No Linkage lH), Bil Qe ACH Jes 
变量 ， 以 及 不 表示 变量 和 函数 的 其 它 标识 符 。 


存储 类 修饰 符 (Storage Class Specifier) 有 以 下 几 种 关键 字 ， 可 以 修饰 变量 或 函数 声明 : 


e static， 用 它 修饰 的 变量 的 存储 空间 是 静态 分 配 的 ， 用 它 修饰 的 文件 作用 域 的 变量 或 函数 
具有 Internal Linkage。 


e auto， 用 它 修 饰 的 变量 在 函数 调用 时 自动 在 栈 上 分 配 存 储 空间 ， 通 数 返 回 时 自动 释放 ， 例 
如 上 例 中 main 函 数 里 的 p 其 实 就 是 用 auto 修 饰 的 ， 只 不 过 auto 可 以 省 略 不 写 ，auto 不 能 修 
饰 文件 作用 域 的 变量 。 


* register, TES] T A register lS Ifi] ers JS] esd BCT IAE TT ft > 但 
如 果实 在 分 配 不 开 寄存 器 ， 编 译 器 就 把 它 当 auto 变 量 处 理 了 ，register 不 能 修饰 文件 作用 
域 的 变量 。 现 在 一 般 编译 器 的 优化 都 做 得 很 好 了 ， 它 自己 会 想 办 法 有 效 地 利用 CPU 的 寄存 
Airs 所 以 现在 register 关 键 字 也 用 得 比较 少 了 o 


e extern， 上 面 讲 过 ， 链 接 属 性 是 根据 一 个 标识 符 多 次 声明 时 是 不 是 代表 同一 个 变量 或 函数 
来 分 类 的 ，extern 关 键 字 就 用 于 多 次 声明 同一 个 标识 符 ， 下 一 章 再 详细 介绍 它 的 用 法 。 


e typedef ， 在 第 2.4 节 “sizeof 运 算 符 与 typedef 类 型 声明 ” 讲 过 这 个 关键 字 ， 它 并 不 是 用 来 修 
饰 变 量 的 ， 而 是 定义 一 个 类 型 名 。 在 那 一 节 也 讲 过 ， 看 typedef 声 明 人 怎么 看 呢 ， 首先 去 
挥 typedef 把 巴 看 成 变量 声明 ， 看 这 个 变量 是 什么 类 型 的 ， 那么 typegef 就 定义 了 一 个 什么 
类 型 ， 也 就 是 说 ，typeaet 在 语法 结构 中 出 现 的 位 置 和 是 面 几 个 关键 字 一 样 ， 也 是 修饰 变 
量 定义 的 ， 所 以 从 语法 (而 不 是 语义 ) 的 角度 把 它 和 前 面 儿 个 关键 字 归 类 到 一 起 。 


注意 ， 上 面 介绍 的 const 关 键 字 不 是 一 个 Storage Class Specifier ， 虽 然 看 起 来 它 也 修饰 一 个 变 

量 声明 ， 但 是 在 以 后 介绍 的 更 复杂 的 声明 中 const 在 语法 结构 中 人 允许 出 现 的 位 置 和 Storage Class 
Specifier 是 不 完全 相同 的 。 const 和 以 后 : i 介绍 的 restrict 和 volatile 关 键 字 属于 同一 类 语法 元 
素 ， 称 为 类 型 限定 符 (Type Qualifier) 。 


变量 的 生存 期 (Storage Duration ， 或 者 Lifetime ) 分 为 以 下 几 类 : 


。 静态 生存 期 (Static Storage Duration) ， 具 有 外 部 或 内 部 链接 属性 ， 或 者 被 static 修 饰 的 

变量 ， 在 程序 开始 执行 时 分 配 和 初始 化 一 次 ， 此 后 便 一 直 存在 直到 程序 结束 。 这 种 变量 通 
常 位 于 .rodata， .data 或 .bss 段 ， 例如 上 例 main 国 数 外 的 A， a, b, c, EJ M main PR a E 
的 a。 


。 自动 生存 期 (Automatic Storage Duration) ， 链 接 属性 为 无 链接 并 且 没 有 被 static 修 饰 的 
变量 ， 这 种 变量 在 进入 块 作用 域 时 在 栈 上 或 寄存 需 中 分 配 ， 在 退出 块 作用 域 时 释放 。 例 如 
上 例 中 main 阴 数 里 的 bp 和 c。 


动态 分 配 生 存 期 (Alocated Storage Duration) ， 以 后 会 讲 到 调用 malloc 函 数 在 进程 的 堆 
空间 中 分 配 内 存 ， 调 用 free 函 数 可 以 释放 这 种 存储 空间 。 























































































































































































































































































































































































































































































































































































































































































































































































































22) 为 了 容易 阅读 ， 这 里 我 用 了 “程序 文件 "这 个 不 严格 的 叫 法 。 如 果 有 文件 a. < 包含 























了 b.h 和 c.nh， 那 么 我 所 说 的 “程序 文件 " 指 的 是 经 过 预 处 理 把 be.n 和 ec.h 在 a.c 中 展开 之 后 生成 的 代 
人 码 ， 在 C 标 准 中 称 为 编译 单元 (Translation Unit) 。 每 个 编译 单元 可 以 分 别 编译 成 一 个 .目标 文 
件 ， 最 后 这 些 目标 文件 用 链接 器 链接 到 一 起 ， 成 为 一 个 可 执行 文件 。C 标 准 中 大 量 使 用 一 些 非 常 
不 通俗 的 名 词 ， 除 了 编译 单元 之 外 ， 还 有 编译 器 叫 Translator ， 变 量 叫 Object ， 本 书 不 会 采用 这 

















些 名 词 ， 因 为 我 不 是 在 写 C 标 准 。 





4. 结构 体 和 联合 体 
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4. 结构 体 和 联合 体 


我 们 继续 用 反 汇 编 的 方法 研究 一 下 C 语 言 的 结构 体 : 





























: #include <stdio.h> 


‘ine main(int argc, char** argv) 


ei 
| struct { 
char a; 
Sibi 
Me, SE 
char d; 
} S; 
s.a = 1; 
s.b = 2; 
SC 三 本 号 区 
s.d = 4; 
printf ("Su\n", sizeof(s)); 


























s.a = 1; 


80483d5: c6 45 £0 01 movb $0x1, -0x10 (%ebp) 
T - T Gu AS 352. (02 OO movw $0x2, -0xe ($ebp) 
B0483df: J RO 45 £4 03 00 00 00 movl $0x3, -0xc (%ebp) 
EN d E movb 8024, -028 (GE) 




















从 访问 结构 体 成 员 的 指令 可 以 看 出 ， 结 构 体 的 四 个 成 员 在 栈 上 是 这 样 排列 的 : 


























图 19.5. 结构 体 的 存储 布局 
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低地 址 





虽然 栈 是 从 高 地 址 同 低 


ebp-0xc 
4ebp-0xe 
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ebp-0x10 





WEES CH , 但 经 

















组 类 似 。 但 有 一 点 和 数 引 
为 填充 (Padding) 

















号 整 型 。 

















AMT A PE d ER 
结构 对 于 访问 内 存 的 # 
访问 的 Ali í 



































， 不 仅 如 此 ， 
值 是 12。 注意 ， MEM i e EDU sizeof 的 值 是 


FARE 
站 令 是 有 限 
[应 该 是 4 的 整数 倍 ， 访 问 两 字 节 的 指 


HASTA], £i 


> 7H 


在 这 























BIE? 




















该 是 两 字 节 
这 个 限制 条 
呢 ? 在 有 些 平台 上 ) 
是 不 对 齐 的 指令 执 


整数 倍 ， 














各 不 能 

















这 称 为 对 
牛 ， 读 者 可 以 回头 检验 一 下 。 如 习 
而 是 引发 一 个 异 第 


了 效率 比 对 日 令 要 低 ， 所 以 编译 骨 





内 存 ， 
齐 的 


访问 




















i 构 体 成 员 也 是 从 低地 址 向 高 地 址 排列 的 ， 这 一 点 和 数 


oo 
i 构 体 的 末 








7 





有 一 个 知识 点 我 此 前 一 直 回 避 没 讲 ， 
判 的 ， 在 32 位 平台 上 ， 


齐 (Alignment) 。 
指令 所 访问 的 内 存 地 址 没有 正确 对 齐 会 
平台 上 倒是 仍然 能 访问 内 存 ， 











E. pe 
` 是 一 个 紧 


尾 也 有 三 

















访问 4 字 市 的 指 











挨 一 个 排列 的 ， 
| 个 字 节 的 填充 ， 所 以 sizeof (s) 的 


AEsize tR 


那 就 是 大 多 数 计 
^ (比如 上 面 
^ (比如 上 面 的 novw) 所 访问 的 
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型 的 ， 是 某 和 
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Aly 


算 机 体系 统 
的 mov1) 所 
内 存 地 址 应 
































以 前 举 的 所 有 例子 
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' 的 内 存 访问 指令 都 满足 
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各 种 变 
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对 齐 的 问题 。 对 了 


的 结构 体 ， 编 译 刀 














F 本 例 
ox10 这 个 地 址 一 定 是 4 的 整 
EH Ip 


ANS . xa E 
个 填充 字 广 ， 使 s.b 的 地 


为 epp- oxc 这 个 地 址 也 是 














CHIH 


EN. s.ati— 











址 也 是 两 字 
4 的 整数 倍 。 


市 的 整 
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一 口 

















安排 这 个 
后 个 结构 体 只 需 和 前 
因为 在 前 一 个 经 


























i 构 体 的 末 
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PE 





vk BAAS EE WES d I 
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那么 为 什么 s.a 的 后 
AMA IBI] E SERRE, feld 
吉 构 体 紧 挨 看 排列 就 可 以 从 





巴 它 的 基地 址 对 齐 到 4 字 节 边 界 ， 也 就 





没有 对 齐 的 
Sn T 
S. c 45785, 


HB. s. 














所 以 编译 器 会 在 
紧 换 在 s.b 的 后 面 











是 说 


b 占 两 个 字 节 ， 如 
结构 体 ! 插 入 一 
就 可 以 了 ， 因 








» ebp- 
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i 也 要 有 填充 位 填充 到 4 字 节 边界 





呢 ? 

















上 用 这 种 结 
F 它 的 基地 址 


FRZ 
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EB ZUR T XE 











不 能 有 空隙 ， 这 样 才能 人 


合理 设计 结构 休 
免 产生 填充 字 























各 成 员 的 乔 


KL 








列 顺序 可 以 市 


字 节 。 


省 存储 空 
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KA 


仍然 对 








岂 组 成 一 个 数组 ， 那 么 
齐 到 4 字 节 边界 了 ， 
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x 间 ， 例 如 上 例 中 的 结 


EXE, CREIRE Z 
IEREA- ZUR AY HEHE RT] EAE EE nx CRRA A 


HJC 








素 必须 紧 挨 着 排列 ， 
计算 出 来 。 


构 体 改 成 这 样 就 可 以 避 






































证 SITE 
char a; 
char d; 
short 
alg «gp 


b; 

















结构 体 





! 的 填充 字 市 : 








Motus 


Gilde ar 


Smee 
de Ee 
: chark; 
Vier bites packed) yas, 

















这 样 就 不 能 
的 理由 ， 


以 前 我 们 使 
使 用 Bit Field 语 法 定义 只 


(www.wangcong.org) : 








保证 结构 体 成 
役 不 要 使 用 这 种 语法 。 


用 的 数据 类 型 

























































































例 19.4. Bit Field 


都 是 占 几 个 他 市 ， 最 小 的 类 型 也 要 
占 几 个 Bit 的 成 员 。 下 面 这 个 作 





员 的 对 齐 了 ， 在 访问 bp 和 c 的 时 候 可 能 会 有 效率 问题 ， 所 以 除非 有 特别 









































构 体 中 还 可 以 





占 一 个 字 节 ， 而 在 结 
自 王 聪 的 网 站 




















fH 




















s 这 个 


Ww 





; #include <stdio.h> 


‘typedef struct { 
' unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
unsigned 
| unsigned 
: } demo type; 


int 
IINE 
TAE 
int 
ne B 
TINE 
int 


i int main (void) 
E 
demo type s = ( 1, 5, 513, 17, 129, 0x81 }; 
E printf("sizeof demo type = %u\n", 

: sizeof (demo type)); 

: printf("values: s=%u,%u, $u, Su, Su, Su\n", 

: s.one, s.two, s.three, s.four, s.five, 
i S. Six); 


return 0; 





吉 构 体 的 布局 如 下 图 所 示 : 


图 19.6. Bit Field 的 存储 布局 


Six five four three twoone 


00000000 00000000 00000000 [10000001] ooofrooo0 oo1pdioo oiooooo 000 平 o 平 


math Hil 


低地 址 

















Bit Field 成 员 
的 int 型 一 样 

















:2; 这 样 定义 一 个 未 命名 的 Bit Field， 即 使 不 写 未 命名 的 Bit Field ， 编 译 器 也 有 可 能 








间 插 入 填充 











的 类 型 可 以 是 int 或 unsignea int ， 表 示 有 符号 数 或 无 符号 数 ， 但 不 表示 它 像 普通 
占 4 个 字 节 ， 它 后 面 的 数字 是 几 就 表示 它 占 多 少 个 Bt， 也 可 以 像 ansigned int 


























EN 
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i， 如 上 图 的 five 和 six 之 间 ， 





SA, tla 
竺 两 个 成 员 之 
这 样 six 这 个 成 员 就 刚好 单独 占 一 个 字 节 了 ， 访 问 效 


























率 会 比较 高 ， 


过 x86 的 Byte Order 是 小 端的 ， 从 上 图 








民 还 填充 了 3 个 字 市 ， 以 便 对 齐 到 4 字 市 边界 。 以 前 我 们 说 
one 和 two 的 排列 顺序 可 以 看 出 ， 如 果 对 一 个 字 市 再 细 


这 个 结构 体 的 末 












































的 Bit Order 也 是 小 端的 ， 








D, WFT 


因为 排 在 结构 体 前 面 的 成 员 (靠近 低地 址 一 边 的 成 员 ) 





























最 地 下 时 网 


氏 位 。 关 于 如 何 排列 Bit Field 在 C 标 准 

















没有 详细 的 规定 ， 这 跟 Byte Order. Bit 


























Order、 对 齐 等 问题 都 有 关 ， 不 同 的 平台 和 编译 妖 可 








能 会 排列 得 很 不 一 样 ， 要 编写 可 移植 的 代码 






























































就 不 能 假定 Bit Field 是 按 某 一 种 固定 方式 排列 的 。Bit Field 在 驱动 程序 中 是 很 有 用 的 ， 因 为 经 常 
需要 单独 操作 设备 寄存 器 中 的 一 个 或 儿 个 Bit， 但 一 定 要 小 心 使 用 ， 首 先 弄 清楚 每 个 Bit Field 和 实 
际 Bit 的 对 应 关系 。 


和 前 面 几 个 例子 不 一 样 ， 在 上 例 中 我 没有 给 出 反 汇 编 结 果 ， 直 接 画 了 个 图 说 这 个 结构 体 的 布局 
是 这 样 的 ， 那 我 有 什么 证 据 这 么 说 呢 ? 上 例 的 反 汇 编 结 果 比 较 繁 琐 ， 我 们 可 以 通过 另 一 种 手段 
得 到 这 个 结构 体 的 内 存 布局 。C 语 言 还 有 一 种 类 型 叫 联合 体 ， 用 关键 字 union 定 义 ， 其 语法 类 似 
于 结构 体 ， 例 如 : 



























































































































































































































































例 19.5. 联合 体 





; #include <stdio.h> 


‘typedef union { 

i SECC 1 
unsigned int one:1; 
unsigned int two:3; 
unsigned int three:10; 
unsigned int four:5; 
unsigned int :2; 
unsigned int five:8; 
unsigned int six:8; 

) bitfield; 
i unsigned char byte[8]; 
: } demo_ type; 


i int main (void) 
 { 
Slemomev cu = {{ I, 5, SIS, 17, 129, Ossi jhe 
printf ("sizeof demo type = %u\n", 

' sizeof (demo type)); 

| printf ("values: u=%u, Su, Su, Su, Su, on 
u.bitfield.one, u.bitfield.two, 

: u.bitfield.three, 

i tslog iLa lol FOUE, Wolomle Rtelel, ELVE; 
uc bibtdeld. sax) 
printf("hex dump of u: $x Sx Sx $x SK SK SK $x 
| Nia n 
! u.byte[0], u.byte[1], u.byte[2], 
: u.byte[3], 

: u.byte[4], u.byte[5], u.byte[6], 
; u.byte[7]) ; 


return 0; 






































一 个 联合 体 的 各 个 成 员 占 用 相同 的 内 存 空间 ， 联 合体 的 长 度 等 于 其 中 最 长 成 员 的 长 度 。 比 如 u 这 
个 联合 体 占 8 个 字 节 ， 如 有 果 访 问 成 员 ua.pitfiela， 则 把 这 8 个 字 节 看 成 一 个 由 Bit Field 组 成 的 结构 
本 ， 如 果 访 问 成 员 u.byte， 则 把 这 8 个 字 节 看 成 一 个 数组 。 联 合体 如 果 用 Initializer 初 始 化 ， 则 只 
初始 化 它 的 第 一 个 成 员 ， 例 如 aemo_type u = {{ 1, 5, 513, 17, 129, 0x81 }}; 初始 化 的 
是 u.bitfield， 但 是 通过 u.bitfield 的 成 员 看 不 出 这 8 个 字 节 的 内 存 布局 ， 而 通过 u.byte 数 组 就 
可 以 看 出 每 个 字 节 分 别 是 多 少 了 。 


习题 
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1、 编 写 一 个 程序 ， 测 试 运行 它 的 平台 是 大 端 还 是 小 端 字 节 序 。 
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5. C 内 联 汇编 


用 C 写 程序 比 直接 用 汇编 写 程序 更 简洁 ， 可 读 性 更 好 ， 但 效率 可 能 不 如 汇编 程序 ， 因 为 C 程 序 毕 
竞 要 经 由 编译 融和 后 成 汇编 代码 ， 尽 管 现代 编译 需 的 优化 已 经 做 得 很 好 了 ， 晶 还 是 不 如 手写 的 汇 
编 代码 。 男 外 ， 有 些 平台 相关 的 指令 必须 手写 ， 在 C 语 言 中 没有 等 价 的 语法 ， 因 为 C 语 言 的 语法 
和 概念 是 对 各 种 平台 的 抽象 ， 而 各 种 平台 特有 的 一 些 东西 就 不 会 在 C 语 言 ! 出 现 了 ， 例 如 x86 是 
端口 /O, 而 C 语 言 ; 就 没有 i 这 个 概念 5 所 以 inyout 指 令 必 须 用 汇编 来 写 。 


C 语 言 简 洁 易 读 ， 容 易 组 织 规模 较 大 的 代码 ， 而 汇编 效率 高 ， 而 且 写 一 些 特殊 指令 必须 用 汇编 ， 
为 了 把 这 两 方面 的 好 处 都 占 全 了 ， 5cc 提 供 了 一 种 扩展 语法 可 以 在 C 代 码 中 使 用 内 联 汇编 (Inline 
Assembly ) 。 最 简单 的 格式 是 _asm ("assembly code") 例如 _ asm_ ("nop"); , nop 这 条 
指令 什么 都 不 做 ， 只 是 让 CPU 鹤 转 一 个 指令 执行 周期 。 如 果 希 要 执行 多 条 汇编 指令 ， 则 应 该 
用 \n\t 将 各 条 指令 分 隔 开 ， 例如 : 
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asm  ("movl $1, %eax\n\t" 
"movl $4, %ebx\n\t" 
Uime SOGO p 



























































通常 C 代码 中 的 内 联 汇 编 需 要 和 C 的 变量 建立 关联 ， 需 要 用 到 完整 的 内 联 汇 编 格 式 : 

















asm__(assembler template 


: output operands le ope lonaly 全/ 
: input operands /* optional s 
: list of clobbered registers /oes */ 


); 














这 种 格式 由 四 部 分 组 成 ， 第 一 部 分 是 汇编 指令 ， 和 上 面 的 例子 一 样 ， 第 二 部 分 和 第 三 部 分 是 约 
RENE, 第 二 部 分 指示 汇编 指令 的 运算 结 采 要 输出 到 哪些 C 操 作 数 中 ，C 操 作 数 应 该 是 左 值 表达 
式 ， 第 三 部 分 指示 沪 编 指令 需要 从 哪些 C 操 作 数 获得 输入 ， 第 四 部 分 古 在 汇编 指令 中 被 修改 过 的 
HA. 指示 编译 需 哪 些 寄存 需 的 值 在 执行 这 条 __asm_ 语句 时 会 改变 。 后 三 个 部 分 都 是 可 
选 的 ， 如 果 有 就 填写 ， 没有 就 空 着 只 写 个 :号 。 例 如 : 








































































































































































































例 19.6. 内 联 汇 编 


: #include <stdio.h> 


: int main () 
3 
| ioe e = d, b; 


asm  ("movl $1, %%eax\n\t" 
"movl %%eax, %0\n\t" 


: "=r" (p) yon/ 
UE m rs input */ 
:"%eax" /* clobbered register */ 


, 
printf("Result: £d, %d\n", a, b); 
return 0; 

















TO EP a a IY ELA "r" (a) FARSI Aa RU— T aR Ee EL, TEZJILIRIET 
的 输入 ， 也 就 是 指令 中 的 s1 (按照 约束 条 件 的 顺序 ，b 对 应 so，a 对 应 1s) ， 至 于 $1 究竟 代表 哪 
个 寄存 器 则 由 编译 器 自己 决定 。 汇 编 指 令 首 先 把 si 所 代表 的 寄存 器 的 值 传 给 eax (为 了 和 s1 这 种 
占 位 符 区 分 ，eax 前 面 要 求 加 两 个 s 号 ) ， 然 后 把 eax 的 值 再 传 给 so 所 代表 的 寄存 器 。"=r" (b) 就 
表示 把 so 所 代表 的 寄存 器 的 值 输出 给 变量 be。 在 执行 这 两 条 指令 的 过 程 中 ， 寄 存 句 eax 的 值 被 改 
变 了 ， 所 以 把 "seax" 写 在 第 四 部 分 ， 告诉 编译 器 在 执行 这 条 ”asm_ 语句 时 eax 要 被 改写 ， 所 以 在 
此 期 间 不 要 用 eax 保 存 其 它 值 。 


我 们 看 一 下 这 个 程序 的 反 汇 编 结果 : 




































































































































































































































































asm ("movl $1, %%eax\n\t" 
80483dc: Slo SS iB mov —0x8 (Sebp) , sedx 
80483df: 89 dO mov Sedx, Seax 
80483e1: 8/9 E2 mov Seax, %edx 
80483e3: SO BS TA mov sedx, -0xc (%ebp) 
"movl $$eax, %0\n\t" 
: "=r" (Db) 1/55 Smee A 
g Ue (e) /* input */ 
:"%eax" /* clobbered register */ 




















FY soh Alt Rea By fF an , 首先 把 变量 。 (位 于 epp-8 的 位 置 ) 的 值 传 给 eqx 然 后 执行 内 联 汇 
编 的 两 条 指令 ， 然 后 把 eax 的 值 传 给 b (位 于 ebp-12 的 位 置 ) 。 


关于 内 联 汇编 就 介绍 这 么 多 ， 本 书 不 做 深入 讨论 。 






































I-ü m T—H 
4. 结构 体 和 联合 体 起 始 页 6. volatile 限 定 符 


6. volatile 限 定 符 


第 19 章 汇编 与 C 之 间 的 关系 





427 IA T. 


6. volatile zz 4T 


现在 探讨 一 下 编译 右 优 化 会 对 生成 的 指令 产生 什么 影响 ， 在 此 基础 上 介绍 C 语 言 的 volatile 限 定 
符 。 看 下 面 的 例子 。 





























| /* artificial device registers */ 
‘unsigned char recv; 
: unsigned char send; 





i /* memory buffer */ 
: unsigned char buf[3]; 


' int main (void) 


: { 

i buf[0] = recv; 
buf[1] = recv; 
buf[2] = recv; 
: send = ~buf[0]; 
i send = ~buf[1]; 
| send = ~buf[2]; 
return 0; 

PD 






















































































































































































我 们 用 recv 和 sena 这 两 个 全 局 变量 来 模拟 设备 寄存 器 。 假 设 某 种 平台 采用 内 存 映射 VO ， 串 口 发 
送 寄存 器 和 串口 接收 寄存 器 位 于 固定 的 内 存 地 址 ， 而 *ecv 和 send 这 两 个 全 局 变量 也 有 固定 的 
存 地 址 ， 所 以 在 这 个 例子 中 把 它们 假想 成 串口 接收 寄存 器 和 串口 发 送 寄 存 器 。 在 main 孙 数 中 ， 
首先 从 串口 接收 三 个 字 节 存 到 put 中 ， 然 后 把 这 三 个 字 节 取 反 ,依次 从 串口 发 送出 去 [22]。 我 们 
查看 这 上 段 代码 的 反 沪 编 结果 : 
buf[0] = recv; 
80483a2: 0f b6 05 19 a0 04 08 movzbl 0x804a019,$eax 
80483a9: a2 1a a0 04 08 mov $al,0x804a01a 
loue [dL] e seexewvE 
80483ae: Of b6 05 19 a0 04 08 movzbl 0x804a019,$eax 
80483b5: a2 1b a0 04 08 mov $al,0x804a01b 
loyblae || Z| e STeeXeNVp 
80483ba: Of b6 05 19 a0 04 08 movzbl 0x804a019,$eax 
80483c1: a2 1c a0 04 08 mov $al,0x804a01c 
send = ~buf[0]; 
80483c6: Of b6 05 1a a0 04 08 movzbl 0x804a01a,$eax 
80483cd: £7 dO not $eax 
80483cf: a2 18 a0 04 08 mov $al,0x804a018 
send = ~buf[1]; 
80483d4: Of b6 05 1b aO 04 08 movzbl 0x804a01b,$eax 
80483db: £7 dO not $eax 
80483dd: a2 18 a0 04 08 mov $al,0x804a018 
send = ~buf[2]; 
80483e2: Of b6 05 1c a0 04 08 movzbl 0x804a01c,S$eax 
80483e9: £7 dO not $eax 
80483eb: a2 18 a0 04 08 mov $al,0x804a018 





























movz 指 令 把 字 长 较 短 的 值 存 到 字 长 较 长 的 存储 单元 


有 b 


如 movzbl 0x804a019, eax xem 


Fi 
AE 


的 











AB UNF 





(byte) 、 




















四 字 节 的 ， 高 三 字 节 用 0 填充 ， 而 
Im, f 




















图 19.7. eax 2t Gt 


eax 








巴 这 个 字 节 存 到 地 址 0x804a01a 处 的 
存 器 的 低 8 位 、 次 低 8 位 、 低 16 位 或 者 完整 的 32 位 ， 以 eax 为 例 ，al 表 示 低 8 位 ，an 表 示 次 
氏 8 位 ，ax 表 示 低 16 位 ， 如 下 图 所 示 。 














前 三 条 语句 从 串 
从 内 存 地 址 0x804a019 读 一 个 字 节 到 寄存 器 eax 
SILA-BEA VJ TER 














名 把 euf 中 的 三 个 字 节 取 反 再 发 送 到 串 











指定 优化 选项 -o 编 译 ， 反 汇编 的 结 曙 


















































'， 存 储 单 元 的 











高 位 用 0 填充 。 该 指令 可 以 

















w (word) 、1 (long) 三 种 后 级 ,分 别 表示 单字 市 、 








两 字 节 和 四 字 节 。 比 








地 址 0x804a019 处 的 一 个 字 节 存 到 sax 寄存 器 中 
下 一 条 指令 mov sal, 0x804a01a 
E a i re 


FH te 














就 不 一 样 了 : 














, Mea eb Ed 
ai Ay (eae IL eax ib fü 
可 以 用 不 同 的 名 字 单 独 访问 x86 寄 
































: $ gcc main.c -g =O 


: $ objdump -dS a.out|less 


buf [0] = recv; 
80483ae: Of b6 05 19 a0 04 08 
80483b5: a2 la a0 04 08 
ue || = Sexe 
80483ba: a2 1b aO 04 08 
lobe [pA] = ev; 
80483bf: a2 1c a0 04 08 
send = ~buf[0]; 
send = ~buf[1]; 
send = ~buf[2]; 
80483c4: i ClO 
a2 18 a0 04 08 


80483c6: 





movzbl 0x804a019,$eax 


mov 


$al,0x804a01a 
$al,0x804a01b 


$al,0x804a01c 


$eax 
$al,0x804a018 











口 接收 三 个 字 节 ， 而 编译 生成 的 指 








也 址 0x804a019 读 取 ， 而 是 





公 











PN 











显然 不 符合 我 们 的 意图 : 只 


AR ` 
第 一 条 语句 



































TER 











的 地 址 ， 把 它们 : 


不 会 变 ， 


读 取 ， 
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呢 ? 









































成 普通 的 

















^5 




















可 以 先 把 内 存 




















AA aa eas dt ANA 
元 了 。 如 果 




















是 普通 的 内 存 























E 然后 从 寄存 器 a1 保 存 到 puf [01， 后 两 条 语句 
是 直接 把 寄存 器 a1 的 值 保存 到 puf11] 和 buf[12]。 后 三 条 语 





口 ， 编 译 生成 的 指令 也 不 符合 我 们 的 意图 : 只 有 最 后 一 条 
叫 eax 的 值 取 反 写 到 内 存 地 址 0x804a018 了 ， 前 两 条 语句 形同虚设 ， 根 本 不 生成 指令 。 


为 什么 编译 器 优化 的 结果 会 














1 道 0x804a018 和 0x804a019 是 设备 寄存 器 












































单元 
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这 样 效率 更 高 ， 我 























性 : 


e 设备 Al {P48 


用 优化 选项 编译 生成 的 指令 明 


单元 连续 做 三 次 写 操作 
的 ， 可 以 优化 擅 

















o Wi 














ERRE ap a2 3 
HADEBES FE ARNEE 
只 有 最 后 一 次 的 值 会 保存 到 内 存单 元 














EJE, 





只 要 程序 不 





改写 它 ， 它 就 























起 来 ， 以 后 每 次 用 到 这 个 值 就 








LIZA F 




















EPAM A Eat 








要 快 。 另 一 方面 ， 如 果 对 一 个 普通 的 内 存 
























































问 设备 寄存 器 的 代码 这 样 优化 就 错 了 ， 




















'， 所 以 前 两 次 写 操 作 是 多 余 








因为 设备 寄存 带 往 往 具有 以 下 特 












































的 数据 不 需要 改写 就 可 以 











连续 多 次 癌 设 备 寄 存 融 








写 数 据 并 不 


7 

















Fi 


已 发 生变 化 ， 每 次 读 上 来 的 值 都 可 能 不 一 样 。 














在 做 无 





AE 
























































Hz, MERR RELI. 
显效 率 更 高 ， 但 使 用 不 当 会 出 错 ， 为 了 避免 编译 需 


E 














作 聪 明 ， 把 
































不 该 优化 的 也 优化 了 ， 哪些 内 存单 元 的 访问 是 不 能 优化 的 ， 在 C 语 言 
中 可 以 用 volatile 限 定 符 修饰 变 就 是 告诉 编译 器 ， 即 使 在 编译 时 指定 了 优化 选项 ， 每 次 读 
这 个 变量 仍然 要 老 老实 实 从 内 存 读 放 ， 每 次 写 这 个 变量 也 仍然 要 老 老实 实 写 回 内 存 ， 不 能 省 略 
任何 步骤 。 我 们 把 代码 的 开头 几 行 改 成 : 











































































































i /* artificial device registers */ 
; volatile unsigned char recv; 
: volatile unsigned char send; 














然后 指定 优化 选项 -o 编 译 ， 查 看 反 汇 编 的 结果 : 











buf[0] = recv; 


80483a2: Of b6 05 19 ad 04 08 movzbl 0x804a019,£eax 

80483a9: a2 1a a0 04 08 mov $al,0x804a01a 
Joyas [LL] e aS 

80483ae: Of b6 15 19 a0 04 08 movzbl 0x804a019,£edx 

80483b5: 88 15 1b aO 04 08 mov $dl,0x804a01b 
loyous [22] = serene 

80483bb: Of b6 Od 19 ad 04 08 movzbl 0x804a019, %ecx 

80483c2: 88 Od lc a0 04 08 mov $cl,0x804a01c 
send = ~buf[0]; 

80483c8: £7 do not $eax 

80483ca: a2 18 a0 04 08 mov $al,0x804a018 
send = ~buf[1]; 

80483cf: i (Qu not %edx 

80483d1: 88 15 18 a0 04 08 mov $d1,0x804a018 
send = ~buf[2]; 

80483d7: Ey lil not $ecx 

80483d9: 88 Od 18 a0 04 08 mov $cl,0x804a018 











确实 每 次 读 recv 都 从 内 存 地 址 0x804a019 读 取 ， 每 次 写 seng 也 都 写 到 内 存 地 址 0x804a018 了 。 
值得 注意 的 是 ， 每 次 写 sena 并 不 需要 取出 buf 中 的 值 ， 而 是 取出 先前 缓存 在 寄存 

髓 eax、edx、ecx 中 的 值 ， 做 取 反 运算 然后 写 下 去 ， 这 是 因为 buf 并 没有 用 volatile 限 定 ， 读 者 
可 以 试 着 在 buf 的 定义 前 面 也 加 上 volatile， 再 优化 编译 ， 再 查看 反 汇 编 的 结果 。 


gcc 的 编译 优化 选项 有 -oo、-o、-ol、-oz、-o3、-os 几 种 。-oo 表 示 不 优化 ， 这 是 缺 省 的 选 
项 。-ol、-o2 和 -o3 这 几 个 选项 一 个 比 一 个 优化 得 更 多 ， 编 译 时 间 也 更 长 。-o 和 -ol 相同 。-os 表 
示 为 缩小 目标 代码 尺寸 而 优化 。 具 体 每 种 选项 做 了 哪些 优化 请 参考 cc 4 1) 的 Man Page. 


从 上 面 的 例子 还 可 以 看 到 ， 如 采 在 编译 时 指定 了 优化 选项 ， 源 代码 和 生成 指令 的 次 序 可 能 无 法 
对 应 ， 甚 至 有 些 源 代 码 可 能 不 对 应 任何 指令 ， 被 彻底 优化 掉 了 。 这 一 点 在 gap 做 源码 级 调试 时 
尤其 需要 注意 (做 指令 级 调试 没关系 ) ， 在 为 调试 而 编译 时 不 要 指定 优化 先 选项 ， 否 则 可 能 无 法 

步 步 跟 踩 源 代 码 的 执行 过 程 。 


有 了 volatile 限 定 符 ， 是 可 以 防止 编译 器 优化 对 设备 寄存 器 的 访问 ， 但 是 对 于 有 Cache 的 平台 ， 
仅仅 这 样 还 不 够 ， 还 是 无 法 防止 Cache 优 化 对 设备 寄存 器 的 访问 。 在 访问 普通 的 内 存单 元 

时 ，Cache 对 程序 员 是 透明 的 ， 比如 执行 了 movzpl 0x804a019, seax 这 样 一 条 指令 ， 我 们 并 不 知 
道 eax 的 值 是 真 的 从 内 存 地 址 0x804a019 读 到 的 ， 还 是 从 Cache 中 读 到 的 ， 如 果 Cache 已 经 绥 存 
了 这 个 地 址 的 数据 就 从 Cache 读 ， 如 果 Cache 没 有 绥 存 就 从 内 存 读 ， 这 些 步 又 都 是 硬件 自动 做 
的 ， 而 不 是 用 指令 控制 Cache 去 做 的 ， 程 序 员 写 的 指令 中 只 有 寄存 器 、 内 存 地 址 ， 而 没 
有 Cache， 程序 员 甚 至 不 需要 知道 Cache 的 存在 。 同 样 道理 ， 如 果 执 行 了 mov sal,0x804a01a 这 
样 一 条 指令 ， 我 们 并 不 知道 寄存 器 的 值 是 真 的 写 回 内 存 了 ， 还 是 只 写 到 了 Cache 中 ， 以 后 再 

由 Cache 写 回 内 存 ， 即 使 只 写 到 了 Cache 中 而 暂时 没有 写 回 内 存 ， 下 次 读 0x804a01a 这 个 地 址 时 
仍然 可 以 从 Cache 中 读 到 上 次 写 的 数据 。 然 而 ， 在 读 写 设备 寄存 器 时 Cache 的 存在 就 不 容 忽 视 
了 ， 如 果 串 口 发 送 和 接收 寄存 器 的 内 存 地 址 被 Cache 缓 存 了 会 有 什么 问题 呢 ? 如 下 图 所 示 。 
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图 19.8. 串口 发 送 和 接收 寄存 圳 被 Cache 绥 存 会 有 什么 问题 








串口 发 送 寄存 器 




















如 果 串 口 发 送 寄 存 器 的 地 址 被 Cahce 缓 存 ，CPU 执 行 单 元 对 串口 发 送 寄 存 器 做 写 操作 都 写 

到 Cache 中 去 了 ， 捉 口 发 送 寄存 器 并 没有 及 时 得 到 数据 ， 也 就 不 能 及 时 发 送 ，CPU 执 行 单元 先 
后 发 出 的 1、2、3 三 个 字 节 都 会 写 到 Cache 中 的 同一 个 单元 ， 最 后 Cache 中 只 保存 了 第 3 个 字 
节 ， 如 果 这 时 Cache 把 数据 写 回 到 串口 发 送 寄 存 器 ， 只 能 把 第 3 个 字 闻 发 送出 去 ， 前 两 个 字 节 就 
于 失 了 。 与 此 类 似 ， 如 果 串 口 接收 寄存 器 的 地 址 被 Cache 绥 在 ，CPU 执 行 单 元 在 读 第 1 个 字 节 
时 ，Cache 会 从 捉 口 接收 寄存 右 读 上 来 缓存 ， 然 而 串口 接收 寄存 右 后 面 收 到 的 2、3 两 个 字 

节 Cache 并 不 知道 ， 因 为 Cache 把 串口 接收 寄存 器 当 作 普通 内 存单 元 ， 并 且 相 信 内 存单 元 中 的 数 
据 是 不 会 自己 变 的 ， 以 后 每 次 读 串 口 接收 寄存 器 时 ，Cache 都 会 把 缓存 的 第 1 个 字 节 提供 

给 CPU 执行 单元 。 
通常 ， 有 Cache 的 平台 都 有 办 法 对 某 一 段 地 址 范围 禁用 Cache ， 一 般 是 在 页 表 中 设置 的 ， 可 以 设 


定 哪 些 页 面 允许 Cache 绥 存 ， 哪 些 页 面 不 允许 Cache 绥 存 ，MMU 不 仅 要 做 地 址 转换 和 访问 权限 
检查 ， 也 要 和 Cache 协 同 工 作 。 


除了 设备 寄存 需 需 要 用 volatile 限 定之 外 ， 当 一 个 全 局 变量 被 同一 进程 中 的 多 个 控制 流程 访问 
时 也 要 用 volatile 限 定 ， 比 如 信号 处 理 函 数 和 多 线程 。 










































































































































































































































































































































































[28] 实际 的 串口 设备 通常 有 一 些 标志 位 指示 是 否 有 数据 到 达 以 及 是 否 可 以 发 送 下 一 个 字 节 的 数 
据 ， 通 常 要 先 查 询 这 些 标志 位 再 做 读 写 操作 ， 在 这 个 例子 中 我 们 抓 主 要 了 矛盾， 名 略 这 些 细 市 。 
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第 20 章 链接 详解 








2A i EE " 





1. 多 目标 文件 的 链接 


第 20 革 链接 详解 





多 目标 文件 的 链接 


现在 我 们 把 例 12.1“ 用 堆栈 实现 倒序 打印 " 拆 成 两 个 程序 文件 ，stack.c 实 现 堆 栈 ， 而 main.c 使 用 
EFR: 

































































u- 














/* stack.e +/ 
‘char stack[512]; 


ine top = =i; 

: void push (char c) 

Pd 

| stack[++top] = c; 
: 


| char pop(void) 
: { 


return stack[top--]; 


= 


‘int is_empty (void) 

E 

return top == -1; 
P 





















































这 上段 程序 和 原来 有 点 不 同 ， 在 例 12.1 “用 堆栈 实现 但 外 ?中 top 总 是 指 癌 栈 顶 元 素 的 下 一 个 元 
素 ， 而 在 这 段 程 序 rop 总 是 指向 栈 顶 元 素 ， 所 以 要 初始 化 成 -1 才 表示 空 堆栈 ， 这 两 种 堆栈 使 用 
“TAM I I. FIP, 从 现在 开始 本 书 的 代码 尽 可 能 把 ++、 运算 符 作 为 表达 式 的 一 部 分 使 
而 不 单独 使 用 ， 这 才 符 合 C 语 言 的 简洁 风格 ， 读 者 要 适应 和 学 习 这 种 写法 。 
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Dk Main.c ~/ 
: include <stdio.h> 


: int a, b = 1; 


: int main(void) 


E 


while(!is empty()) 
putchar (pop ()); 
joureclaaie ((U Nia V) ¢ 


return 0; 






































a 和 和 b 这 两 个 变量 没有 用 ， 从 是 为 了 顺便 说 明 链接 过 程 才 加 上 的 。 编 详 的 步骤 和 以 前 一 样 ， 可 以 








PG Gee -o main.c 


$ gcc -c stack.c 
: $ gcc main.o stack.o -o main 








如 果 按 照 第 2 D “main BAU SIMPLE BCE, nmi t SUE Ai CNSR, AA 

现 main .0 中 有 未 定义 的 符 号 pushy pop^ is empty^ putchar, 前 三 个 符号 在 stack .O 中 实现 了 3 
链接 生成 可 执行 文件 main 时 可 以 做 符号 解析 ， 而 putcnar 是 1ipbc 的 库 函 数 ， 在 可 执行 文件 main 中 
仍然 是 未 定义 的 ， 要 在 程序 运行 时 做 动态 链接 。 


我 们 通过 readelf -a main 命 令 可 以 看 到 ， main 的 .bss 段 合并 了 main.o 和 stack.o 的 .bss 段 ， 其 中 
包含 了 变量 as 和 stack , main 的 .aata 段 也 合并 了 main.o 和 stack.o 的 .aata 段 ， 其 中 包含 了 变 
量 b 和 tonp ， main 的 .text 段 合并 了 main.o 和 stack.o 的 .text 段 ， 包含 了 各 函数 的 定义 。 如 下 图 所 
不 。 























































































































图 20.1. 多 目标 文件 的 链接 


main.o stack.o 
低地 | 








[EC Mich E 





.text 





.text push 
pop 
is empty 


main 


push 
pop 
is empty 

















为 什么 在 可 执行 文件 main 的 每 个 段 中 来 自 nain.o 的 变量 或 函数 都 在 前 面 ， 而 来 自 stack .o 的 变量 
或 函数 都 在 后 面 呢 ? 我 们 可 以 试 试 把 gcc 命 令 中 的 两 个 目标 文件 反 过 来 写 : 

































































1S oce stack.o main.o O main 




















结果 正如 我 们 所 预料 的 ， 可 执行 文件 main 的 每 个 段 中 来 自 main.o 的 变量 或 函数 都 排 到 后 面 了 。 
实际 上 链接 的 过 程 是 由 一 个 链接 脚本 (Linker Script) 控制 的 ， 链 接 脚 本 决定 了 给 每 个 段 分 配 什 
么 地 址 ， 如 何 对 齐 ， 哪 个 段 在 前 ， 哪 个 段 在 后 ， 哪 些 段 合并 到 同一 个 Segment， 男 外 链接 脚本 
还 要 插入 一 些 符号 到 最 终生 成 的 文件 is 例如 _bss_start、_edata、_end 等 。 如 果 用 1a 做 链接 
时 没有 用 -rz 选项 指定 链接 脚本 ， 则 使 用 1a 的 默认 链接 脚本 ， 默 认 链 接 脚 本 可 以 用 la -- 
verbose 命 令 查 看 (由 于 比较 长 ， 只 列 出 一 些 片 断 ) : 























































































































TA Script for -z combreloc: combine and sort reloc sections */ 


; OUTPUT FORMAT ("el£32-i386", "e1f32-1386", 
| "e1f32-1i386") 

; OUTPUT ARCH(1386) 

: ENTRY ( start) 


: SECTIONS 
an 
/* Read-only sections, merged into text segment: */ 
PROVIDE (__executable_start = 0x08048000); . = 0x08048000 + 
: SIZEOF HEADERS; 
i .interp 2 (a) 中 
-note.gnu.build-id : { *(.note.gnu.build-id) ) 
.hash S 4 itae ]J 
.gnu.hash em nas 
.dynsym E X (aes J} 
.dynstr B8 4 (oem J) 
.gnu.version ( *(.gnu.version) ) 
.gnu.version d { *(.gnu.version d) } 
.gnu.version r ( (cgo. 55) J} 
.rel.dyn 
ade jodie, & X "(gelsgolber j 
init 
Spise a 4 (elt) } 
text : 
aE aLI 
.rodata Odata com mu ne NS, 
.eh frame : ONLY IF RO { KEEP (*(.eh_frame)) } 
| /* Adjust the address for the data segment. We want to adjust 
; up to 
i the same address within the page on the next page up. */ 
: = ALIGN (CONSTANT (MAXPAGESIZE)) - ((CONSTANT (MAXPAGESIZE) - 
:.) & (CONSTANT (MAXPAGESIZE) - 1)); . = DATA SEGMENT ALIGN 
(CONSTANT (MAXPAGESIZE), CONSTANT (COMMONPAGESIZE)); 
ctors 
dtors 
5 es 8 X Tamm (2 (788) )) ] 
dynamic (enamel 
got T CO) a 
o ione DE Bo X (oD) ) 
data : 
 edata = .; PROVIDE (edata = .); 
EMI S SEO EE = of 
.bss 
menda m; PROVIDER(S]; 
= DATA SEGMENT END (.); 


/* Stabs debugging sections.  */ 

/* DWARF debug sections. 
i Symbols in the DWARF debugging sections are relative to the 
: beginning 
: of the section so we begin them at 0. */ 


























ENTRY (_start) 说 明 _start 是 整个 程序 的 入 口 点 ， 因此 _start 是 入 口 点 并 不 是 规定 死 的 ， 是 可 以 
































MHR E RAZUMA HAAA o 











PROVIDE (__executable_start = 0x08048000); . = 0x08048000 + SIZEOF_HEADERS; 是 Text 
Segment 的 起 始 地 址 ， 这 个 Segment 包 含 后 面 列 出 的 那些 段 ，.plt、.text、.rodata 等 等 。 
个 段 的 描述 格 式 都 是 " 段 名 : CAUX y', BI. pit : { *(.pit) }， 左 边 表示 最 终生 成 的 文件 
的 .plt 段 ， 右 边 表示 所 有 目标 文件 的 .plt 段 ， 意 思 是 最 终生 成 的 文件 的 .plt 段 由 各 目标 文件 
的 .plt 段 组 成 。 






















































































. = ALIGN (CONSTANT (MAXPAGESIZE)) - ((CONSTANT (MAXPAGESIZE) - .) & (CONSTANT 
(MAXPAGESIZE) - 1)); . = DATA SEGMENT ALIGN (CONSTANT (MAXPAGESIZE), CONSTANT 


(COMMONPAGESIZE)) ;是 Data Segment 的 起 始 地 址 ， 要 做 一 系列 的 对 齐 操作 ， 这 个 Segment 包 含 
后 面 列 出 的 那些 段 ， .got、 .data、 .bss 等 等 。 































































































Data Segment 的 后 面 还 有 其 它 一 些 Segment， 主 要 是 调试 信息 。 关 于 链接 脚本 就 介绍 这 么 多 ， 
本 书 不 做 深入 讨论 。 





E= E TEA 
第 20 3E 链接 详解 起 始 页 2. 定义 和 声明 


2. 定义 和 声明 


J 第 20 章 链接 详解 下 二 页 
2. 定义 和 声明 


2.1. extern 和 static 关 键 字 








Fn 上 一 
数 push 


看 到 : 


























节 我 们 把 两 个 程序 文件 放 在 一 起 编译 链接 ，main.c 用 到 的 函 
、 pop 和 is_empty 由 stack.c 提 供 ， E 实 有 一 点 小 问题 ， 我 们 用 -wal1 选 先 项 编译 main.c 可 以 















































: $ gcc -c main.c -Wall 

p menee iol ue o TE ma 

: main.c:8: warning: implicit declaration of function ‘push’ 

: main.c:12: warning: implicit declaration of function ‘is_empty’ 
: main.c:13: warning: implicit declaration of function ‘pop’ 



























































这 个 问题 我 们 在 第 2“ “ae Seep reel, PSA ae EA K SCH SNC Do] ERR 
原型 ， 只 好 根据 函数 调用 代码 做 隐 式 声明 ， 把 这 三 个 函数 声明 为 : 








: int push (char); 
i int pop (void); 
: int is_empty (void); 





现在 你 



































应 该 比 学 第 2 节 “ 目 定义 通 数 "的 时 候 更 容易 理解 这 条 规则 了 。 为 什么 编译 器 在 处 理 冰 数 



































调用 代 
么 样 的 
上 函数 
2 A 





















































码 时 需要 有 函数 原型 ? 因为 必须 知道 参数 的 类 型 和 个 数 以 及 返回 值 的 类 型 才 知道 生成 什 
指令 。 为 什么 隐 式 声明 靠不住 呢 ? 因 为 隐 式 声明 是 从 函数 调用 代码 推导 而 来 的 ， 而 事实 
定义 的 形 参 类 型 可 能 跟 函 数 调用 代码 传 的 实 参 类 型 并 不 一 臻 ， 如 果 函 数 定 义 带 有 可 变 参 
如 printf) ， 那 么 从 函数 调用 代码 也 看 不 出 来 这 个 函数 带 有 可 变 参数 ， 男 外 ， 从 函数 调 
























































































































































用 代码 
式 声明 
呢 ? 
JL ER 
函数 原 


译 过 去 


现在 我 


























也 看 不 出 来 返回 值 应 该 是 什么 类 型 ， 所 以 隐 式 声明 只 能 规定 返回 值 都 是 int 型 的 。 既 然 隐 
靠不住 ， 那 编译 器 为 什么 不 自己 去 找 函 数 定义 ， 而 非 要 让 我 们 在 调用 之 前 写 函 数 原型 

















































































































pq qe T IE i LR BIE 我 让 编译 需 编 译 main.c， 而 这 

















数 的 定义 却 在 stack.c 里 ， 编 译 喜 又 怎么 会 知道 呢 ” 所 以 编译 需 只 能 通过 隐 式 声明 来 猜测 
m RAEAN, EARE NA ERN E, 比如 上 一 市 的 例子 这 么 编 
了 也 能 得 到 正确 结果 。 


们 在 main.c 中 声明 这 几 个 函数 的 原型 : 








































































































QUK Main,.c ~/ 
i?inelude <stdio.h> 


: extern void push(char); 
: extern char pop (void); 
: extern int Is empl y (void); 


' int main (void) 


E 


while(!is empty()) 
putchar (pop ()); 
putchar (Nia V ) 6 


return 0; 









































这 样 编译 器 就 不 会 报警 告 了 。 在 这 里 extern 关 键 字 表示 这 个 标识 符 具 有 External 

Linkage. External Linkage 的 定义 在 上 一 章 讲 过 ， 但 现在 应 该 更 容易 理解 了 ，push 这 个 标识 符 
具有 External Linkage 指 的 是 : 如 果 把 main.c 和 stack. c 链 接 在 一 起 ， 如 
push 在 main.c 和 stack.c 都 有 声明 (fEstack.c [的 声明 同时 也 是 定义 ) 那么 这 些 声明 指 的 
同一 个 通 数 ， 链 接 之 后 是 同一 个 eLosAL 符 号 ， 代 表 同 一 个 地 址 。 


用 

是 

函数 声明 ' 的 extern 也 可 以 省 略 不 写 ， 不 写 extern 仍 然 表 示 这 个 函数 名 具有 External 
Linkage 。C 语 言 不 允许 幅 套 定义 函数 [2 ， 但 如 果 只 是 声明 而 不 定义 ， 这 种 声明 是 允许 写 在 函数 
体 里 面 的 ， 这 样 声明 的 标识 符 具有 块 作用 域 ， 例 如 上 面 的 main.c 也 可 以 写成 : 























































































































































































































i /* main.c */ 
: #include <stdio.h> 


| int main (void) 
: { 
: void push(char); 
char pop (void); 
int is, empty (void); 


push('a'); 
push('b'); 
push('c'); 


while(!is empty()) 
putchar (pop ()); 
purterai U Nia )) e 


return 0; 

















i /* foo.c */ 
| ETETE void foo(void) {} 


LPS maim ae 
i void foo (void); 
i int main (void) { foo(); return 0; } 


编译 链接 在 一 起 会 出 错 : 

















See foo.c main.c 

|: /tmp/ccRC2Yjn.o: In function ^main': 

imain.c: (.text+0x12): undefined reference to ‘foo' 
meollect 2, ldererurmed l exit STATUE 












































BIME foo.c HEM SPAM eoo, {AIX SABA AA Internal Linkage ， 只 有 在 foo.c 中 多 次 声明 才 
表示 同一 个 函数 ， 而 在 main.c 中 声明 就 不 表示 它 了 。 如 果 把 foo.c 编 译 成 目标 文件 ， 涵 数 

名 foo 在 其 中 是 一 个 LocaL 的 符号 ， 不 参与 链接 过 程 ， 所 以 在 链接 时 ，main.c 中 用 到 一 个 External 
Linkage 的 foo 函 数 ， 链 接 器 # 却 找 不 到 它 的 定义 在 哪儿 ， 无 法 确定 它 的 地 址 ， -n 
析 ， 只 好 报错 。 凡 是 被 多 次 声明 的 变量 或 函数 ， 必 须 有 且 只 有 一 人 声明 是 定义 ， 如 果 有 多 

义 ， 或 者 一 个 定义 都 没有 ， 链 接 器 就 无 法 完成 链接 。 


以 上 讲 了 用 static 和 extern 修 饰 函 数 声明 的 情况 。 现 在 来 看 用 它们 修饰 变量 声明 的 情况 。 仍 然 















































































































































































































































用 stack.c 和 main.c 的 例子 ， 如 果 我 想 在 main. c 
extern HE : 


























直接 访问 stack.c 定义 的 变量 top , 


则 可 以 


DESDE maine = 
"jinelude <stdiosh> 


: int main(void) 
: { 
: void push(char); 
char pop (void); 
int is empty (void); 
extern int top; 


r 
r 
r 
d\n", top); 


while(!is empty()) 

put eee (SoS (UH 
reelan( Nia! ) 9 
prior (explo COD) R 


return 0; 



































变量 top 具 有 External Linkage , 它 的 存储 空间 是 在 stack.c 分 配 的 ， 所 以 main.c 











LETS A 量 声 














明 extern int top; 不 是 变量 定义 ， 因 为 它 不 分 配 存储 空间 。 和 函数 声明 类 似 ， 变 量 声 
是 块 作用 域 的 也 可 以 是 文件 作用 域 的 ， 上 面 的 例子 把 声明 写 在 main 函 数 体 里面 ，top 这 个 标识 符 














































































































量 声明 如 果 不 写 extern 意 思 就 完全 变 了 ， WR EMTA E externi iK Emain KZŽ 















































个 局 部 变量 top。 另 外 要 注意 ，stack.c 中 的 定义 是 int top = -1; ， 而 main.c 中 的 声明 总 




















加 Initializer 了 ， 如 果 上 面 的 例子 写成 extern int top = -1; 则 编译 器 会 报错 。 

























































































































































































可 Lop 和 stack 呢 ? 答案 就 是 用 static 关 键 字 把 它们 声明 为 Internal Linkage 的 : 


来 看 ，top 这 个 变量 是 不 希望 被 外 界 访问 到 的 ， 变 量 cop 和 stack 都 属于 这 个 模块 的 内 部 ) 
界 应 该 只 允许 通过 push 和 pop 函 数 来 改变 模块 的 内 部 状态 ， OM Pup 
NF fI ABES stack RA RISE EC cop, ABA REBANPRASSLAL T. AE 怎么 才能 阻止 外 界 访 


具有 块 作用 域 。 注 意 ， 变 量 声明 和 天 数 声 明 有 一 点 不 同 ， 函 数 声明 的 extern 可 写 可 不 写 ， 而 变 


` 
ZW 
Ea 








ee a dau 











CBE 




















: AS, 





i /* stack.c */ 
l STATIE eharkstack 31,219 
teraria nie Cog = =i} 


! void push (char c) 
E 4 
stack[++top] = c; 
E 


| char pop (void) 
i { 


return stack[top--]; 
De 

i int is empty (void) 

P 

: return top -- -1; 

P 





















































PUR, 即使 十 main.c gage e c 的 变量 kop 和 stack。 从 而 保 
了 stack.c 模 块 的 内 部 状态 ， 这 也 是 一 种 封装 (Encapsulation) 的 思想 。 



























































用 static 关 键 字 声明 具有 Internal Linkage 的 函数 也 是 出 于 这 个 目的 。 在 一 个 模块 











明 既 可 以 


定义 一 


BE 
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H 





N 








是 是 供给 

















rn 


外 界 使 




















用 的 ， 也 称 为 导出 (Export) 给 外 界 使 用 ， 这 








PK ŽE HH External 


Linkage If] . 有 些 函 数 只 于 模块 内 部 使 用 而 不 希望 deer 则 声明 为 Internal Linkage f] . 
2.2. 头 文件 


我 们 继续 


前 面 天 于 


J pushy pop» is empty — 4T E 





























文件 都 
块 ， main. 
各 种 办 法 








函数 接口 




















stack.c 和 main.c 的 讨论 。 stack. c 这 个 模块 


已 经 设计 得 比较 完善 
































c 和 foo.c 中 各 自 

















要 写 三 个 末 ; 





写 三 个 函数 声 明 也 是 很 麻烦 的 ， 假设 义 有 一 个 foo. bn 这 个 模 
数 声明 。 重 复 的 代码 总 








把 重复 的 代码 提取 出 来 ， 比如 在 2 2 证 “数组 应 
免 硬 编码 的 问题 ， 这 次 有 什么 办 法 呢 ? 

















wes dtes SHE, 导出 

















日 是 使 用 这 个 模块 的 每 个 程序 
































hee PAIS HORE ARRA NE 





Zi GAME “Sint HE 














答案 就 是 可 以 目 己 写 














个 头 文件 stack h: 


m 
E 
d 


* stack.h */ 
ifndef STACK H 
define STACK H 


: extern void push (char); 
: extern char pop (void); 
extern int is empty (void); 


Dd 


endif 





这 样 在 ma 























In 只 需 包 er X 


























Ly 


|: #include <stdio.h> 


4 


Di 


T 


* main.c */ 
include "stack. 


nt main(void) 


while(!is empty()) 


levi 


putchar (pop ()); 


putchar 


return 0; 


(Oi!) 2 








首先 说 为 
的 头 文件 








什么 #include <stdio.h> 用 





5 gcc H 26 TE TK - I 选项 指定 的 












































于 用 引号 包 














假如 三 个 














尺码 文件 都 放 在 当 





含 的 头 文件 ，scc 
目录 ， 然 后 查找 系统 的 头 文 从 


fe /usr/include , 在 我 的 系统 上 还 








Ej /usr/lib/gcc/i486 














HARR 
目录 。 














包含 头 文件 的 .< 文 作 














括号 Ss 而 #include "stack. hn" 用 3 引号 。 xT 用 括号 包含 
目录 ， 然 后 查找 系统 的 头 文件 目录 (通常 
-linux-gnu/4.3.2/include) ; 而 对 


所 在 的 目录 ， 然 后 查找 -rz 选项 指定 的 









































== meum. 
Sia ele 


"ec gels ain 


:0 


directories, 3 files 





则 可 以 用 scc =c main.c 编 译 ， gcc H 


Er 


目录 下 : 











动 在 main.c 所 在 的 


























!' 找 到 stack.n。 假 如 把 stack nt 








: |-- main.c 

p = gels 
|-- Straco E 
ak 


:1 directory, 3 files 




































































则 需要 用 ucc -c main.c -Tstack 编 译 。 用 - I 选 告诉 gcc 头 文件 要 到 本 目录 stack 里 找 。 





在 #include 预 处 理 指示 I 可 以 使 












































昌 相 对 路 径 ， 例如 把 jus 加 的 代码 改 成 include 





















































"stack/stack.h", 那么 编译 时 就 不 需要 加 - Istack 选 项 了 ， 因为 gcc 会 自动 在 main. c 所 在 的 目录 




















H 





ÓÉsrAck gi TERIA Ee Mt, BA A4itfnaetffüsenaisc [EDS CR ELS ETAT ERIT HZ 
中 ， 否 则 这 一 段 代码 就 不 出 现在 预 处 理 的 输出 结果 中 。stack.h 这 个 头 文件 的 内 容 整个 
被 #tifndeft 和 #endift 括 起 来 了 ， 如 采 在 包含 这 个 头 文件 时 sracx_8 这 个 安 已 经 定义 过 了 ， 则 相当 于 









































查找 ， 而 头 文件 相对 于 main.c 所 在 目录 的 相对 路 径 正 是 stack /stack.h。 
在 stack.h 中 我 们 又 看 到 两 个 新 的 预 处 理 指示 #ifngef sTACK_H 和 和 #endif， 意 思 是 说 ， 如 






























































No 
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"u 
























































这 个 头 文件 里 什么 都 没有 ， 包 含 了 一 个 空 文件 。 这 有 什么 用 呢 ?假如 main.c 包 含 了 两 


次 stack.nh: 














则 第 一 








: #include U SERE We c Igi! 
i #include "stack.h" 


Sine main (void) 











次 包含 stack.h 时 并 没有 和 定义 sracg_8 这 个 安 ， 因 此 头 文件 的 内 容 包含 在 预 处 理 的 输出 结 细 











And 























: #define STACK H 

: extern void push (char); 

: extern char pop (void); 

: extern int is empty (void); 
nemde tacki hi 


: int main (void) 



































经 定义 了 sracK_H 这 个 宏 ， 因 此 第 二 次 再 包含 stack.h 就 相当 于 包含 了 一 个 空 文件 ， 这 就 避 


> 


















































rer 的 内 容 被 重复 包含 。 注 意 这 里 的 宏 定 义 和 我 们 以 前 使 用 的 宏 定义 有 点 不 同 ， 例 









































如 #aefine N 20 将 NH 定义 为 20， 在 预 处 理 时 把 代码 中 所 有 的 标识 符 N 蔡 换 成 20， 而 +aefine 
STRACK_H 把 sTaAcK_H 定 义 为 室 ， 在 预 处 理 时 把 代码 中 所 有 的 标识 符 sracKgk_H 蔡 换 成 空 。 当 然 
把 sracK_H 和 定义 成 另 | 的 也 不 是 不 可 以 ， 只 是 对 于 保护 头 文件 这 种 用 法 来 说 定义 成 空 :就 足够 了 。 这 















































































































































种 保护 头 文件 的 用 法 称 为 Header Guard, 以 后 我 们 每 写 一 个 头 文件 都 要 加 上 Header Guard, 7X 














定义 名 就 用 头 文件 名 的 大 写 形 式 ， 这 是 天 sn ds. 









































AAT 





























么 需要 防止 重复 包含 呢 ?》 谁 会 把 一 个 头 文件 包含 两 次 呢 ， 像 上 面 那 么 明显 的 错误 没 人 会 






































犯 , 但 有 时 候 重复 包含 的 错误 并 不 是 那么 明显 的 。 比 如 : 


























i #inelude "stack.h" 
ifane bide: oo 









































然而 foo.h 里 又 包含 了 bar.h，bar.h 里 又 包含 了 stack.h。 在 规模 较 大 的 项 目 中 头 文件 包含 头 文 






























































件 的 情况 很 常见 ， 经 常会 包含 四 五 屋 ， 这 时 候 重 复 包 含 的 问题 就 很 难 发 现 了 。 比 如 在 我 的 系统 
头 文件 目录 /usr/include D errno.hfÀ Â f bits/errno.h $ 后 者 又 包含 了 1 inux/errno.h, HÉ 
X BIS f asm/errno.h, 后 者 又 包含 了 asnm generic/errno.ho 


A GE, SLEEEUGETE AS TAI, WAHAR? 像 上 面 的 三 个 函数 声明 ， 在 
程序 中 声明 两 次 也 没有 问题 ， 对 于 具有 External Linkage 的 函数 ， 声 明 任意 多 次 也 都 代表 同一 个 
KA ERBE KUFA LA F E: 


1. 一 是 使 预 处 理 的 速度 变 慢 了 ， 要 处 理 很 多 本 来 不 需要 处 理 的 头 文件 


2. 二 是 如 果 有 foo.n 包 含 bar.nh，bar.h 又 包含 soo.n 的 情况 ， 预 处 理 器 就 陷入 死 循环 了 (其 实 
编译 器 都 会 规定 一 个 包含 层 数 的 上 限 ) 。 


3. 三 是 头 文件 里 有 些 代码 不 允许 重复 出 现 ， 虽 然 变量 和 函数 允许 多 次 声明 (只 要 不 是 多 次 定 
义 就 行 ) ， 但 头 文 件 里 有 些 代码 是 不 允许 多 次 出 现 的 ， 比 如 typeaef 类 型 定义 和 结构 
体 Tag 定 义 等 ， 在 一 个 程序 文件 中 只 允许 出 现 一 次 。 


还 有 一 个 问题 ， 既然 要 #incluae 头 文件 ， 那 我 不 如 直接 在 main.c 中 #incluqe "stack.c" 得 了 。 这 
样 把 stack.c 和 main.c 合 并 为 同一 个 程 FH, 相当 于 又 回 到 最 初 的 例 12.1 “用 堆栈 实现 倒序 # 
印 " 了 。 当 然 这 样 也 能 编译 通过 ， 但 是 在 一 个 规模 较 大 的 项 目 中 不 能 这 人 么 做 ， 假 如 又 有 一 

个 f0o.c 也 要 使 用 stack.c 这 个 模块 怎么 办 呢 ? 如 果 在 foo.c 里 面 也 #include "stack.c" ， 就 相当 
于 push、 pop、 is_empty 这 三 个 函数 在 main.c 和 foo.c ! 都 有 定义 ， 那么 main.c 和 foo.c 就 不 能 链 
接 在 一 起 了 。 如 果 采 用 包含 头 文 件 的 办 法 ， 那 么 这 三 个 函数 只 在 stack.c 中 定义 了 一 次 ,最 后 可 
以 把 main.c、 stack.cy foo.c 链 接 在 一 起 。 如 下 图 所 示 : 
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图 20.2. 为 什么 要 包含 头 文件 而 不 是 .ce 文件 


main.c foo.c 


void push(char) 
#include { #include 


} 


void push(char) 


"stack.c" "stack.c" 


int main(void) 


{ 
} 





main.c foo.c stack.c 
#include void push(char); #include 
"stack.h" "stack.h" - void push(char) 
int main(void) int foo( void) 


{ { 
= 





main 























同样 道理 ， 头 文件 中 的 变量 和 函数 声明 一 定 不 能 是 定义 。 如 果 头 文件 中 出 现 变量 或 函数 定义 ， 
这 个 头 文件 又 被 多 个 .< 文件 包含 ， 那 么 这 些 .< 文件 就 不 能 链接 在 一 起 了 。 
2.3. 定义 和 声明 的 详细 规则 


以 上 两 节 关 于 定义 和 声明 只 介绍 了 最 基本 的 规则 ， 在 写 代码 时 掌握 这 些 基 本 规则 就 够 用 了 ， 但 
其 实 C 语 言 关 于 定义 和 声明 还 有 很 多 复杂 的 规则 ， 在 分 析 错 误 原 因 或 者 维护 规模 较 大 的 项 目 时 需 
要 了 解 这 些 规 则 。 本 市 的 两 个 表格 出 目 [Standard C]. 


首先 看 关于 函数 声明 的 规则 。 





























































































































K 20.1. Storage Class 关 键 字 对 函数 声明 的 作用 


Storage Class |File Scope Declaration|Block Scope Declaration 


previous linkage previous linkage 
can define cannot define 





以 前 我 们 说 “extern 关 键 字 表示 这 个 标识 符 具 有 External Linkage" H3 





该 是 Previous Linkage. Previous Linkage 的 定义 是 : 
的 Linkage 取 诀 于 前 一 次 声 B 
明 : 如 FH 
External Linkage 。 例 如 在 




















previous linkage 
can define 


internal linkage 


can define 


previous linkage 
cannot define 

















这 次 声明 的 标识 符 












































有 ， 这 前 一 次 声 有 























FE 程序 文件 











' 找 不 到 前 一 次 声明 (这 次 声明 


个 程序 文件 中 
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ZUM 

















用 域 两 次 声明 同一 


‘static int f(void); /* internal linkage */ 
extern ine poveundy ecce revi ose ka 





昌 同 的 标识 符 名 ， 而 且 必 须 是 文人 
El A 


REM 
在 文件 作 


AS PRP : 





HE 


次 声明 ) ， 那 么 这 个 标识 符 具 





是 不 准确 的 ， 准 确 地 说 应 
Att Ate 











用 域 的 声 
























































































































































则 这 里 的 extern 修 饰 的 标识 符 具 有 Interanl Linkage 而 不 是 External Linkage。 从 上 表 可 以 看 出 我 
门 前 面 所 说 的 “函数 声明 加 不 加 extern 关 键 字 都 一 样 "， 也 可 以 看 出 在 文件 作用 域 人 多 许 定义 函数 ， 
在 块 作用 域 不 允许 定义 函数 ， 或 者 说 函数 定义 不 能 般 套 。 男 外 ， 在 块 作用 域 中 不 允许 

用 static 关 键 字 声明 函数 。 

关于 变量 声明 的 规则 要 复杂 一 些 : 





表 20.2. Storage Class 关 键 字 对 变量 声明 的 作 

















Storage Class |File Scope Declaration |Block Scope Declaration 


external linkage 
static duration 
static initializer 
tentative definition 


previous linkage 
static duration 
no initializer[*] 
not a definition 


internal linkage 
static duration 
static initializer 
tentative definition 

















ZAH 








单元 格 


四 行 ， 


:分 成 














2J 







































































青 况 ， 生 存 期 有 Static DurationfllAutomatic Duration 两 种 


no linkage 
automatic duration 
dynamic initializer 
definition 


previous linkage 
static duration 
no initializer 

not a definition 


no linkage 
static duration 
static initializer 
definition 








| 描述 变量 的 链接 属性 、 生 存 期 ， 以 及 这 种 变量 如 
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可 初始 














变量 定义 。 链 接 属性 有 External Linkage. Internal Linkage. No Linkage 和 Previous 








青 况 ， 请 
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fr Zl 


KE 



































章 的 定义 。 初 始 化 有 Static Initializer 和 Dynamic Initializer 两 种 情况 ， 前 者 表示 Initializer 中 只 能 
使 用 常量 表达 式 ， 表 达 式 的 值 必须 在 编译 时 就 能 确定 ， 后 者 表示 Initializer 中 可 以 使 用 任意 的 右 
值 表达 式 ， 表 达 式 的 值 可 以 在 运行 时 计算 。 是 否 算 变 量 定义 有 三 种 情况 ，Definition 〈 算 变量 定 
X) ~ Nota Definition (不 算 变 量 定义 ) 和 Tentative Definition (和 暂 定 的 变量 定义 ) 。 什 么 叫 “ 暂 
定 的 变量 定义 ” 呢 ? 一 个 变量 声明 具有 文件 作用 域 , 没有 Storage Class 关 键 字 修饰 ， 或 者 
用 static 关 键 字 人 和 修饰， 那么 如 果 它 有 Initializer 则 编译 器 认为 它 就 是 一 个 变量 定义 ， 如 果 它 没 
有 Initializer 则 编译 器 暂 定 它 是 变量 定义 ， 如 果 程 序 文件 中 有 这 个 变量 的 明确 定义 就 用 明确 定 
义 ， 如 果 程 序 文件 没有 这 个 变量 的 明确 定义 ， 就 用 这 个 暂 定 的 变量 定义 BO， 这 种 情况 下 变量 
以 0 初始 化 。 在 [C991] 中 有 一 个 例子 : 










































































































































































































































































































































































en external linkage 
Searle int i2 = 2; // definition, internal linkage 
: extern int i3 = 3; // definition, external linkage 


i int i4; // tentative definition, external linkage 

statie int 15, // tentative definition, internal nage 

|: int il; // valid tentative definition, refers to previous 

: int i2; // 6.2.2 renders undefined, linkage disagreement 

|! int i3; // valid tentative definition, refers to previous 

‘int i4; // valid tentative definition, refers to previous 

|: int i5; // 6.2.2 renders undefined, linkage disagreement 

: extern int il; // refers to previous, whose linkage is external 
|! extern int i2; // refers to previous, whose linkage is internal 
: extern int i3; // refers to previous, whose linkage is external 
|; extern int i4; // refers to previous, whose linkage is external 
: extern int i5; // refers to previous, whose linkage is internal 











变量 it2 和 15 第 一 次 声明 为 Internal Linkage ， 第 二 次 又 声明 为 External Linkage ， 这 是 不 允许 的 ， 
编译 器 会 报错 。 注 意 上 表 中 标 有 [*] 的 单元 格 ， 对 于 文件 作用 域 的 sxtern 变 量 声明 ，C99 是 允许 
带 Initializer 的 ， 并 且 认 为 它 是 一 个 定义 ， 但 是 scc 对 于 这 种 写法 会 报警 告 ， 为 了 兼容 性 应 避免 这 
种 写法 。 
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[29] 但 gcc 的 扩展 特性 允许 嵌 套 定义 函数 ， 本 书 不 讨论 这 种 特性 。 


[30] 由 于 本 书 没 有 提 及 将 不 完全 类 型 进行 组 合 的 问题 ， 所 以 这 条 规则 被 我 简化 了 ， 真 正 的 规则 还 
要 复杂 一 些 。 读 者 可 以 参考 C99 中 有 关 Incomplete Type 和 Composite Type 的 条 款 。Tentative 
Definition 的 完整 定义 在 C99 的 6.9.2 节 条 球 2。 



























































J 网 


1. 多 目标 文件 的 链接 





3. 静态 库 





第 20 Æ 链接 详解 


3. SE 


有 时 候 需 要 把 一 组 代码 编译 成 一 个 库 ， 这 个 库 在 很 多 项 目 中 都 要 用 到 ， 例 如 1lipc 就 是 这 样 一 个 
库 ， 我 们 在 不 同 的 程序 中 都 会 用 到 1ibc 中 的 库 水 数 (例如 printf) ， 也 会 用 到 libc 中 的 变量 
(例如 以 后 要 讲 到 的 environ 变 量 ) 。 本 节 介 绍 怎么 创建 这 样 一 个 库 。 


我 们 继续 用 stack.c 的 例子 。 为 ] 便于 理解 ， 我 们 把 stack.c 拆 成 四 个 程序 文件 (虽然 实际 上 没 大 
KUE) , 把 main.c 改 得 简单 =. LMF stack nA, 本 和 用 到 的 代码 如 下 所 示 : 
T d AL 
i char sStack[512]; 
: int ie = dg 

















































































































































































































































































































: extern char stack[512]; 
i extern int top; 


‘ void push (char c) 
P4 
i stack[++top] = c; 
3 


| char stack[512]; 
|! extern int top; 


: char pop (void) 
i { 
return stack[top--]; 


i} 


i /* is empty.c */ 
i extern int top; 


| int is_empty (void) 
E 
1 SEMA 1EGJg == p 


d 


: /* stack.h */ 

|! #ifndef STACK H 

: #define STACK H 

; extern void push (char); 

: extern char pop (void); 

: extern int is_empty (void); 
i #endif 


a AE maie */ 
: finclude <stdio.h> 
i #include "stack.h" 


: ant main (void) 
i { 
| push('a'); 
return 0; 

















: |-- main.c 

Sii aei 
== ILS (Sgt ze 
== OOD. 
== use 
= Sicelclh< 2 
tek 


neces 














I 











我 们 把 stack.c、push.c、pop.c、is_empty.c 编 译 成 目标 文件 : 


:$ gcc -c stack/stack.c stack/push.c stack/pop.c stack/is empty.c 











然后 打包 成 一 个 静态 库 1ibstack.a: 

















o ar rs libstack.a stack.o push.o pop.o is empty.o 
;ar: creating libstack.a 














库 文件 名 都 是 以 lib 开头 的 ， 静 态 库 以 .a 作 为 后 级 ， 表 示 Archive 。ar 命 令 类 似 于 tar 命 令 ， 起 一 
个 打包 的 作用 ， 但 是 把 目标 文件 打包 成 静态 库 只 能 用 ar 命令 而 不 能 用 tar 命 令 。 选项 :表示 将 后 
面 的 文件 列表 添加 到 文件 包 ， 如 有 果 文 件 包 不 存在 就 创建 它 ， 如 果 文 件 包 中 已 有 同名 文件 就 替换 
成 新 的 。s 是 专用 于 生成 静态 库 的 ， 表 示 为 静态 库 创 建 索引 ， 这 个 索引 被 链接 需 使 用 。ranlibp 命 
令 也 可 以 为 静态 库 创建 索引 ， 以 上 命令 等 价 于 : 
















































































































































































































































































5 ar r libstack.a stack.o push.o pop.o is_empty.o 
:$ ranlib libstack.a 











然后 我 们 把 1ibstack.a 和 main.c 编 译 链接 在 一 起 : 











: $ gcc main.c -L. -lstack -Istack -o main 



























































LI 选项 告诉 编译 需 去 哪里 找 需 要 的 库 文 件 ，-z. 表 示 在 当前 目录 找 。-1stack 告 诉 编 译 俘 要 链 
Ba ibstack/#, -iX0J E Ume MERAL. TER, BIER CPP TES AT ae, Sea 
默认 也 不 会 去 找 的 ， 所 以 - L. 选项 不 能 少 。 ay Ay SERA FRAY Hore n] EA -print-search-dirsi/t 
项 查看 : 






















































































: $ gcc -print-search-dirs 

"axnstall: (/Usr/lib/gee/1486—linux—-gnu/ 4s. 2/ 

|! programs: -/usr/lib/gcc/i486-linux-gnu/4.3.2/:/usr/lib/gcc/i486- 
: linux-gnu/4.3.2/:/usr/lib/gcc/i486-linux-gnu/:/usr/lib/gcc/i486- 
|! linux-gnu/4.3.2/:/usr/lib/gcc/i486-linux- 

: gnu/:/usr/libexec/gcc/i486-linux- 

: gnu/4.3.2/:/usr/libexec/gcc/i486-linux-gnu/:/usr/lib/gcc/i486- 

: linux-gnu/4.3.2/:/usr/lib/gcc/i486-linux-gnu/:/usr/lib/gcc/i486- 
: linux-gnu/4.3.2/../../../../i486-linux-gnu/bin/i486-linux- 

"eim 24 So BY? /usr/lib/gcc/i486- aoe — epow/ d. 3.5 27 «cf act s ed oof MAS 

: linux-gnu/bin/ 

"libraries -/ usr/lib£uccii486-lrxnuxecgnu/4-3-2/: usr/ d /NAG 
|! linux-gnu/4.3.2/:/usr/lib/gcc/i486-linux- 

guum dod. 2f. a olo alao FARO Linux gnu o 2486-1) ins 

P giam di. 3.2 s /usr/lib/gcc/i486- alin =o / Ae Sb 2] col am d o 6d oof TO 

E innsecenb/ Erb ID ./ Usk, lab /gec/ 1413 nu 





i gnu/4.3 
: gnu/4.3 
: gnu/4.3 
gnu) Ale 


! gnu/4.3 


ibit gnu d oe 


32 8 
32/8 


OP sd aT E 
Ds ears eevee 
FLSM o 
/usr/1i1ib7. 
人 


./i486-linux-gnu/4.3.2/:/usr/lib/gcc/i486-linux- 
stool Maloy s / JLauoy/ 3.4] G9) IL awe — 
./lib/:/usr/lib/i486-linux- 


./lib/:/usr/lib/gcc/i486-linux- 


./../i486-linux-gnu/lib/:/usr/lib/gcc/i486- 


sl o od c 


of 8 f M39 3 wisi 人 了 al 





























径 以 及 -i 选项 指 
库 1ibstack. 
所 以 编译 需 


那 么 链接 共享 
接 1ipbc 共 享 库 时 只 
文件 
































main 








定 的 路 径 
so， 如 果 有 就 
是 优先 考虑 共享 


ze UL Fe BERE 
LF, 


:调用 的 11 





的 iibraries 就 是 库 文人 





F 的 搜索 路 径 列表 ， 





各 路 径 之 间 用 

















查找 用 -1 选项 # 























链接 它 UA 


旨 定 的 库 ， 比 如 -1s 





:号 隔 开 。 编 译 需 会 
tack, 编译 需 


二 这 些 搜索 路 
会 首先 找 有 没有 共享 























Ea AN 

















没有 就 找 有 没有 








Hi Elibstack.a, Al 


果 有 就 链接 它 。 





























RAN 


p^ 


年 有 什么 


AEA, UMRE ona ERR 
DX HI YE 2 在 多 2 35 











PASE , 


“main Kğ H 





可 以 指定 -s 


| Ein 


catic 选 项 。 





讲 过 ， 在 链 




















HAE SIS BE 


35H 

















Biss 
































HI, Bear EEA 
步 生成 的 可 执行 文件 





E= 


AY) 














目标 文件 


main: 


呈 序 所 需 : 




















EPI EEOC, 
涯 函 数 仍然 是 未 定义 符号 ， 要 在 运行 时 做 动态 链接 。 而 在 链接 表 








的 做 链接 ， 可 执行 
ASE 


并 没有 真 

















取出 来 和 可 执行 文件 真 








正 链接 在 一 起 。 我 们 通 


过 反 汇 编 看 





98048394 


8048394: 
8048398: 
804839b: 


: 080483c0 
80483c0: 


80483c1: 


80483c3: 


«main»: 


«push»: 


04 


lea 0x4 (Sesp) , 3ecx 
and SOxfffffff0,$esp 
pushl -0x4 ($ecx) 

push %ebp 

mov %esp, Sebp 

sub $0x4, %esp 








JA AURA 思 的 是 , main. 


ZH popfllis empty» 这 是 使 用 静态 





H 








fpe. WA 








是 直接 把 那些 














c 只 调 月 


f pushiX—P RX, 

















目标 文 从 














所 以 链接 生成 的 可 执行 文件 中 
BIA Ab, Gea AT LAM 
F 和 main.c 编 译 链接 在 一 起 : 

















只 有 push 而 没 
r) eun 部 分 来 做 




































































需要 写 一 长 溃 


jae 
2. 定义 和 声明 


LZ 








则 没有 用 到 的 函数 也 会 链接 进 
目标 文件 名 。 





井 来 。 当 然 另 


个 好 处 就 是 使 用 间 





























T=% 
起 始 页 





乔 态 库 只 需 写 一 个 库 文 件 名 ， 而 不 
下 三 页 
4. 共享 库 


4, 共享 库 
第 20 章 链接 详解 





4.1. 编译 、 链 接 、 运 行 























Ants 
Il 
X 
N 
AF 
向 
Hi 
c 























目标 文件 和 一 般 的 目标 文件 有 所 不 同 ， 在 编译 时 要 加 -fpPIc 选 项 ， 例 如 : 


: $ gcc -c -fPIC stack/stack.c stack/push.c stack/pop.c 
i sStack/ islempey-c 















































-f 后 面 跟 一 些 编译 选项 ，Pic 是 其 中 一 种 ， 表 示 生 成 位 置 无 关 代 码 (Position Independent 
Code) 。 那 么 用 -fprc 生 成 的 目标 文件 和 一 般 的 目标 文件 有 什么 不 同 呢 ? 下 面 分析 这 个 问题 。 

































































我 们 知道 一 般 的 目标 文件 称 为 Relocatable , ， 可 以 把 目标 文件 中 各 段 的 地 址 做 重 定 位 
重 定 位 时 需要 修改 指令 。 我 们 移 不 加 -fpPic 选 项 编译 生成 目标 文件 : 



























































: $ gcc -c -g stack/stack.c stack/push.c stack/pop.c 
: stack/is empty.c 























由 于 接 下 来 要 用 objaump -ds 把 反 汇 编 指令 和 源 代 码 穿插 起 来 分 析 ， 所 以 用 -9 选项 加 调试 信息 。 


注意 ， 加 调试 信息 必须 在 编译 每 个 目标 文件 时 用 -s 选 项， 而 不 能 只 在 最 后 编译 生成 可 执行 文 从 
时 用 -se 选项 。 及 汇编 查看 push .o: 






















































































rr 




















: $ objdump -dS push.o 


i push.o: file format elf32-i386 


| Disassembly of section .text: 


: 00000000 «push»: 

i * push.c € 

extern Char stack( S12]; 
: extern int top; 


: void push (char c) 


e 

| 0 55 push %ebp 

| ibs SIONIS mov Sesp, $ebp 

: 3: 83 ec 04 sub $0x4,%esp 

GE 8b 45 08 mov 0x8 (Sebp) , eax 
: 9 88 45 fc mov $al,-0x4($ebp) 
i stack[++top] = c; 

| cad 00 00 00 00 mov 0x0, eax 

E 83 cO O1 add $0x1, Seax 
TA: a3 00 00 00 00 mov %eax, 0x0 

: 19s 8b 15 00 00 00 00 mov 0x0, Sedx 

i fs Of b6 45 fc movzbl -0x4 (%ebp) , eax 
eee 88 82 00 00 00 00 mov %al, 0x0 (%edx) 
: } 

| 29e (ei leave 

NE^ c3 ret 























指令 凡是 用 到 stack 和 top 的 地 址 者 用 0x0 表 示 ， 准备 在 
的 . rel. text AJA AA 





Lii 











定位 时 修改 。 再 看 reaaelf 输 出 





























标 出 了 指令 中 有 四 处 需要 在 重 定 位 时 修改 。 下 面 编译 


: Relocation section '.rel.text' 

p OFTEGE Info Type 

: 0000000d 00001001 R 386 32 

' 00000015 00001001 R 386 32 

: 0000001b 00001001 R 386 32 
00001101 R 386 32 


: 00000025 


at offset 0x848 contains 4 entries: 


Sym.Value Sym. Name 
00000000 top 
00000000 top 
00000000 top 
00000000 stack 
























































链接 成 可 执行 文件 之 后 再 做 反 汇 编 分 析 : 





i gcc -g main.c stack.o push.o pop.o is empty.o -Istack -o main 


: $ objdump -ds main 

: 080483c0 «push»: 

PS pushe 

mexbern (charesrack (312); 
: extern int top; 


: void push (char c) 


Ed 
: 80483c0: 55 
: 80483c1: 89 e5 
; 80483c3: 83 ec 04 
: 80483c6: 8b 45 08 
: 80483c9: 88 45 fc 
: stack[++top] = c; 
: 80483cc: al 10 a0 04 08 
: 80483d1: 83 cO 01 
: 80483d4: a3 10 a0 04 08 
: 80483d9: 8b 15 10 a0 04 08 
; 80483df: 0f b6 45 fc 
: 80483e3: 88 82 40 a0 04 08 
: } 
: 80483e9: c9 
: 80483ea: c3 
80483eb: 90 


push Sebp 

mov Sesp,sebp 

sub S0x4,%esp 

mov 0x8 (Sebp) , seax 
mov Sal, -0x4 (Sebp) 
mov 0x804a010, Seax 
add SOx1, teax 

mov $eax,0x804a010 
mov 0x804a010, $edx 
movzbl -0x4($ebp),$eax 
mov $al,0x804a040 (%edx) 
leave 

ret 

nop 










































































原来 指令 
就 定 死 了 ， 因 为 在 指令 中 使 用 了 绝对 地 址 。 
现在 看 用 -fpic 编 译 生成 的 目标 文件 有 什么 不 同 : 






































的 0x0 被 修改 成 了 0x804a010 和 0x804a040 ， 这 样 做 了 重 定 位 之 后 ， 各 段 的 加 载 地 址 


i$ gcc -c -g -fPIC stack/stack.c stack/push.c stack/pop.c 


i stack/is_empty.¢ 
: $ objdump -dS push.o 


‘ push.o: file format elf32-i386 

| Disassembly of section .text: 

: 00000000 «push»: 

ANE nS “/ 

; extern ES 

i extern int top; 

‘ void push (char c) 

E 

OE 55 Push 
Lg 89 e5 mov 
Sg 53 push 
2 83 ec 04 sub 
3/8 Gly 1E ic JEJE Gee call 
Gs SSS 02 00 00 00 add 
112.8 8b 45 08 mov 
115.8 88 45 £8 mov 


Sea sre -—- (98 


$ebp 

Sesp,sebp 

$ebx 

$0x4,£esp 

8 «push-*0x8» 
$0x2,$ebx 

0x8 ($ebp),$eax 
%al, -0x8 ($ebp) 


| Disassembly of section .text. 


83 
00 
50 
83 
10 
83 
08 
93 
D6 
04 


c4 


00 00 00 


01 
00 00 00 


00 00 00 
00 00 00 
45 £8 

0a 


04 


mov 0x0 ($ebx),$eax 
mov (Seax) ,Seax 

lea 0x1 (Seax) , sedx 
mov 0x0 (Sebx) , eax 
mov Sedx, (eax) 

mov 0x0 (Sebx) , seax 
mov (eax) , Secx 

mov 0x0 ($ebx) , $edx 
movzbl -0x8 (%ebp) , seax 
mov Sal, (Sedx, $ecx, 1) 
add $0x4, Sesp 

pop Sebx 

pop Sebp 

ret 


: 00000000 <__i686.get_pc_thunk.bx>: 
: 8b 1c 24 


OR 


38 


GB 


mov 
ret 


. i1686.get pc thunk.bx: 


(Sesp) , sebx 



















































































指令 中 用 到 的 scack 和 top 的 地 址 不 再 以 0x0 表 示 ， 而 是 以 oxo (sebx) 表示 ， 但 其 中 还 是 留 有 0x0 准 
备 做 进一步 修改 。 再 看 reaaelf 输 出 的 .rel.text 段 : 

‘Relocation section '.rel.text' at offset 0x94c contains 6 entries: 

MESSI Info Type Sym.Value Sym. Name 

: 00000008 00001202 R 386 PC32 00000000 

|!  i1686.get pc thunk.bx 

: 0000000e 0000130a R 386 GOTPC 00000000 

: GLOBAL OFFSET TABLE 

: 0000001a 00001403 R 386 GOT32 00000000 top 

: 00000025 00001403 R 386 GOT32 00000000 top 

; 0000002d 00001403 R 386 GOT32 00000000 top 

00001503 R 386 GOT32 00000000 stack 


: 00000035 























top 和 stack 对 应 的 记录 类 型 不 再 是 R_386 32 了， 而 是 R_386_cor32， 有 什么 区 别 呢 ”我 们 先 编译 





生成 共享 库 再 做 反 汇 编 分 相 








E 


S gcc -shared -o libstack.so stack.o push.o pop.o is empty.o 


: $ objdump -dS libstack.so 


|0000047c «push»: 
MAE ons cH 


Texbern char est ao 


i extern int top; 


! void push (char c) 


if 


47c: 
47d: 
47f: 
480: 
483: 
488: 
48e: 
491: 


494: 
49a: 
49c: 
49f: 
4a5 : 
4a7: 
4ad: 
4af: 
4b5: 
4b9: 


55 
89 
53 
83 
e8 
81 
8b 
88 


e5 


45 


04 
ACIE JEJE AE IE 
Ge ile 00 
08 
£8 


stack[++top] = 


8b 
8b 
8d 
8b 
89 
8b 
8b 
8b 
Of 
88 


83 
00 
50 
83 
10 
83 
08 
93 
D6 
04 


f4 ff ff 


01 
EA EE Ef 


FAS GEET 


X9) TEI EAE 
45 £8 


push $ebp 

mov Sesp, sebp 

push Sebx 

sub $0x4,£esp 

call 

add $0xlb6c,£ebx 
mov 0x8 (Sebp) , seax 
mov Sal, -0x8 ($ebp) 
mov 一 0XC (%ebx) , eax 
mov (eax) , eax 

lea 0x1 (eax) , Sedx 
mov 一 0XC (Sebx), eax 
mov Sedx, (eax) 

mov 一 0XC (%ebx) , eax 
mov (eax) ,Secx 

mov 一 0X8 (Sebx) , edx 
movzbl -0x8 (%ebp) , seax 
mov Sal, (%edx, tecx, 1) 


477 «  i686.get pc thunk.bx» 


4bc: 83 c4 04 add S0x4,%esp 


Abf: 5b pop Sebx 
4c0 : 5d pop $ebp 
Acl: os ret 
4c2: 90 nop 
4c3: 90 nop 














33 





和 先前 的 结果 不 同 ， 指 令 中 的 oxo (sebx) 被 修改 成 -oxc(sebx) 和 -0x8 ($epx) ， 而 不 是 修改 成 绝对 
地 址 。 所 以 共享 库 各 段 的 加 载 地 址 并 没有 定 死 ， 可 以 加 载 到 任意 位 置 ， 因 为 指令 中 没有 使 用 绝 
对 地 址 ， 因 此 称 为 位 置 无 关 代 码 。 另 外 ， 注 意 这 几 条 指令 : 




































































































494: Slo) [9/3] sed) Ed. dtum Ha mov 一 0XC (%ebx) , eax 
49a: 8b 00 mov (Seax),$eax 
49c: SAE SOMO lea 0x1 (Seax) ,Sedx 









80483cc: al 10 a0 04 08 mov 0x804a010, eax 
80483d1: ]is C Qi add $0x1,$eax 
































可 以 发 现 ，-oxc(sebx) 这 个 地 址 并 不 是 变量 tep 的 地 址 ， 这 个 地 址 的 内 存单 元 中 又 保 在 了 另外 一 
个 地 址 ， 这 另外 一 个 地 址 才 是 变量 top 的 地 址 ， 所 以 mov -0xc ($ebx) ,seax 是 把 变量 top 的 地 址 传 
给 sax， 而 mov (Seax) , $eax 才 是 从 top 的 地 址 ! 取 出 top 的 值 传 给 eax。 lea 0x1 ($eax) , $edx FE 
把 top 的 值 加 1 存 到 eax 中 ， 如 下 图 所 示 : 
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图 20.3. 间接 寻 址 


top 的 地 址 
stack 的 地 址 
的 值 

(i 






ebx-12 
ebx-8 











stack[0] 的 值 
stack[1] 的 值 


























top 和 stack 的 绝对 地 址 保存 在 一 个 地 址 表 中 ， 而 指令 通过 地 址 表 做 间接 寻 址 ， 因 此 避免 了 将 绝 
对 地 址 写 死 在 指令 中 ， 这 也 是 一 种 避免 重 编 码 的 策略 。 


现在 把 main.c 和 共享 库 编译 链接 在 一 起 ， 然 后 运行 : 







































































bc Gece main cu Ga le issitsac ke I sits Nam 

:$ ./main 

: ./main: error while loading shared libraries: libstack.so: cannot 
Open shared cbjcct sole. No suche mile Or erector 

















结果 出 平 意料 ， 编 译 的 时 候 没 问题 ， 由 于 指定 了 +. 选项， 编译 器 可 以 在 当前 目录 下 找 
到 1ibstack.so， 而 运行 时 却说 找 不 到 1ibstack.so。 那 么 运行 时 在 哪些 路 径 下 找 共享 库 呢 ?我 们 
先 用 :aa 命令 查看 可 执行 文件 依赖 于 哪些 共享 库 ; 





















































: $ ldd main 
i linux-gate.so.1 =>  (0xb7f5c000) 
libstack.so -» not found 
libc.so.6 -» /lib/tls/i686/cmov/libc.so.6 (0xb7dcf000) 
/lib/ld-linux.so.2 (0xb7£42000) 




















1da 模 拟 运 行 一 授 main， 在 运行 过 程 中 做 动态 链接 ， 从 而 得 知 这 个 可 执行 文件 依赖 于 哪些 共享 
这 ， 每 个 共享 库 都 在 什么 路 径 下 ， 加 载 到 进程 地 址 空间 的 什么 地 址 。/1ib/1qd-1inux.so.2 是 动态 
链接 器 ， 它 的 路 径 是 在 编译 链接 时 指定 的 ， 我 们 在 第 2 节 "main 函数 和 启动 例 程 ? 讲 过 gcc 在 做 链 
接 时 用 -aynamic-linker 指 定 动态 链接 需 的 路 径 ， 它 也 像 其 它 共享 库 一 样 加 载 到 进程 的 地 址 空间 
1。1libpc.so.6 的 路 径 /1iibytls/i686/cmov/libc.so.6 是 由 动态 链接 需 1d-linux.so.2 在 做 动态 链 
接 时 搜索 到 的 ; Iffl1ibstack. so 的 路 径 没 有 找到 o linux-gate.so. 1 这 个 共 ee 并 不 存在 于 文 
件 系 统 中 ， 它 是 由 内 核 虚 拟 出 来 的 共享 库 ， 所 以 它 没 有 对 应 的 路 径 ， 它 负责 处 理 系统 调用 。 总 
之 ， 共 享 库 的 搜索 路 径 由 动态 链接 器 决定 ， 从 14.so(8) Man Page 可 以 查 到 共享 库 路 径 的 搜索 顺 
序 : 
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1. 首先 在 环境 变量 zp_ LIBRARY PATH 所 记录 的 路 径 














ERR. 


2. 然后 从 缓存 文件 /etey/ldq.so.cache 中 查找 。 这 个 缓存 文件 由 ldconfig 命 令 读 取 配 置 文 
件 /etc/1d.so.conf 之 后 生成 稍 后 详细 解释 。 


3. 如 果 上 述 步骤 都 找 不 到 ， 则 到 默认 的 系统 路 径 













































































查找 ， 先 是 /usr/lib 然 后 是 /lib。 





Man Page 的 Section 











1d.so(8) 后 面 的 (8) 表示 这 个 页 面 位 于 Man Page 的 
第 8 个 Section 。 可 以 用 如 下 命令 查看 : 








$ man 8 ld.so 

















用 man la.se 命 令 也 可 以 查看 它 ， 因 为 其 它 Section 没 有 和 它 重 名 
的 Man Page。 但 有 些 Man Page 是 有 重 名 的 ， 比 如 man printf 看 
到 的 并 不 是 C 函 数 printf， 而 是 系统 命令 printf (1) HA 
看 printf 滑 数 的 Man Page 应 该 用 man Se me 因为 它 位 于 

第 3 个 Section。FHS (Filesystem Hierarchy Standard) 标准 规定 
了 Man Page 各 Section 的 含义 如 下 : 





















































表 20.3. Man Page 的 Section 


用 户 命 令 ， 例如 1s (1) 
系统 调用 ， 例 如 _exit (2) 


ZARA, PiU prints (3) 








特殊 文件 ， 例 如 nullk4) 摘 述 了 设备 文 

件 /dev/null、 /dev/zero 的 作用 

系统 配置 文件 的 格式 ， 例 如 passwa (5) 描述 
了 系统 配置 文件 /etc/passwd 的 格式 









































7 其 它 杂 项 ， 例如 bash-builtins (7) 摘 述 





Tha 
系统 管 


sh 的 各 种 内 建 命令 


THe 
命令 , 











pte 
HI 


例如 ifconfig(8) 





Page A 


注意 区 分 用 户 命令 和 
T /binfll/usr/bin, 

何 用 户 都 可 以 执行 用 
要 root 权 限 。 



































还 要 注意 区 分 系统 调 
Ais 5 — Fint $0x8 





Pon ue 数 有 些 完全 在 用 户 模 式 执行 ， 


的 strcpy (3 , AAEM 


如 在 第 2 5 "mai EB TE HE, exit (3) 首先 在 用 





系统 管 
RAE 


Pigs A 

















D. 





ABD, 


FA AL JE PR 


0 指令 ， 


调用 这 些 函 数 将 





1 调用 第 2 个 Section 的 函 











(LEBEL LIVE, PN 











做 后 调用 _exit (2) 进 内 核 终 


数 ， 第 2 个 Section 的 函 净 











EE En 








进入 内 核 执行 
例如 以 后 要 讲 
数 完成 它 的 pe 


"i 























多 止 当前 进程 。 





a (ee 


只 是 简单 


例 


FU 





先 试 试 第 云 行 main 时 通 


ARRAS: 


一 种 方法 ， 在 运 























| LIBRARY PATH-. 


./main 






































这 种 方法 只 适合 在 开发 中 临时 用 一 下 ， 
个 环境 变量 ,理由 可 以 参考 Why LD 





bad (http://www.visi.com/~barr/idp 








LIBRARY_PATH is 
ath.html) 。 




















再 试 试 第 二 种 方法 ， 这 是 最 常用 的 方法 。 
如 /home/akaedu/somedir) 添加 到 /etc/1g.so.conf 





{Jldconfig: 


























IM LD_LIBRARY_PATH ANF 


把 1ibstack.so 所 在 
1 (每 个 路 径 



























































竺 厦 使 用 的 ， 尺 量 不 要 设置 这 
目录 的 绝对 路 径 〈 比 
411) ， 然 后 运 


: /home/akaedu/somedir: 


i libstack.so -> 
| / liaz 
: Ue essen => 
libncursesw.so. 
: /usr/lib: 
libv412.so.0 -> 





| /usr/lib64: 
: /lib/tls: (hwcap: 
: /usr/lib/sse2: (hwcap: 
: /usr/lib/tls: (hwcap: 
: /usr/lib/i686: 
/SA sleeve 


(hwcap: 
(hwcap: 


(hwcap: 


| /1ib/t1s/i686: (hwcap: 





: /usr/lib/i686/cmov: 


; /lib/tls/i686/cmov: 


(hwcap: 


(hwcap: 


libstack.so 


libe2p.so.2.3 


5 -» libncursesw.so.5.6 


libv412.so.0 


0x8000000000000000) 


0x0000000004000000) 


0x8000000000000000) 


0x0008000000000000) 
0x0004000000000000) 


0x0002000000000000) 


0x8008000000000000) 
0x0008000000008 


0x8008000000008 


000) 


000) 


libkdeinit klauncher.so -> libkdeinit klauncher.so 











ldconfig 命 T 今 除 了 处 


理 /etc/1d.so.conf 











1 配置 的 

















目录 之 外 ， 


还 处 理 一 些 默 认 











HX, 














搜 








如 /1ip、/usr/1lib 等 ， 处 理 之 后 生成 /etc/1d.so.cache 绥 存 文件 ， 动 态 链接 器 就 从 这 个 缓存 
索 共 享 库 。hwcap 是 x86 平 台 的 Linux 特 有 的 一 种 机 制 ， 系 统 检 测 到 当前 平台 是 i686 而 不 

是 1586 或 1486， 所 以 在 运行 程序 时 使 用 ji686 的 库 ， 这 样 可 以 更 好 地 发 挥 平台 的 性 能 ， 也 可 以 利 
用 一 些 新 的 指令 ， 所 以 上 面 1aa 命 令 的 输出 结果 显示 动态 链接 器 搜索 到 

的 1ipc 是 /1ib/tls/i686/cmov/1ibc.so.6， 而 不 是 /1ib/1ibc.so.6。 现 在 再 用 1as 命 令 查 
看 ， libstack. so 就 能 找到 了 : 


:$ ldd main 
| linux-gate.so.1 =>  (0xb809c000) 















































































































































: libstack.so -» /home/akaedu/somedir/libstack.so 

: (0xb806a000) 

| libc.so.6 => /lib/tls/i686/cmov/libc.so.6 (0xb7f0c000) 
/lib/ld-linux.so.2 (0xb8082000) 























第 三 种 方法 就 是 把 1ibstack. so 找到 /usr/1ip 或 /1ibp 目 录 ， 这 样 可 以 确保 动态 链接 器 能 找到 这 个 
共享 库 。 


其 实 还 有 第 四 种 方法 ， 在 编译 可 执行 文件 main 的 时 候 就 把 lipstack .so 的 路 径 写 死 在 可 执行 文件 
















































































: $ gcc main.c -g -L. -lstack -Istack -o main -Wl,- 
: rpath, /home/akaedu/somedir 











-Wl,-rpath, /home/akaedu/somedir#e/h-rpath /home/akaedu/somedir 是 由 gcc 传 递 给 链接 器 的 
选项 。 可 以 看 到 reagelf 的 结果 多 了 一 条 rpath 记 录 : 














i Dynamic section at offset 0xf10 contains 23 entries: 


Tag Type Name/Value 
: 0x00000001 (NEEDED) Shared library: 
: [1ibstack.so] 
: 0x00000001 (NEEDED) Shared library: 
soc So 
; 0x0000000f (RPATH) Library rpath: 


: [/home/akaedu/somedir] 















































还 可 以 看 出 ， 可 执行 文件 运行 时 需要 哪些 共享 库 也 都 记录 在 .aynamic 段 中 。 当 然 *path 这 种 办 法 
也 是 不 推荐 的 ， 把 共享 库 的 路 径 定 死 了 ， 失 去 了 灵活 性 。 


4.2. 动态 链接 的 过 程 


本 研究 一 下 在 nain.c 中 调用 邯 
A^. 

































































享 库 的 函数 pushn 是 如 何 实现 的 。 首 先 反 沪 编 看 一 下 main 的 指 














rims 





‘ Disassembly of section .plt: 


: 080483a8 <__gmon_start__@plt-—0x10>: 


80483a8: ie 35 £8 Sue 04 OF pushl  0x8049ff8 
80483ae: aar 5) xe. Gc OA O8 jmp *0x8049ffc 
80483b4: 00 00 add Sal, (Seax) 
: 080483d8 <push@plt>: 
; 80483d8: ff 25 08 a0 04 08 jmp *0x804a008 
80483de: 68 10 00 00 00 push $0x10 


80483e3: QO CO sii ft ETE jmp 80483a8 <_init+0x30> 


i Disassembly of section .text: 
: 080484a4 «main»: 

o/e maim c) 

: #include <stdio.h> 

ifonelude d stas 


| int main (void) 


80484a4: 8d 4c 24 04 lea 0x4 ($esp),$ecx 

80484a8: 83 e4 £0 and SOxfffffff0, sesp 

80484ab: wie FL 3E) pushl -0x4 (%Secx) 

80484ae: 55 push Sebp 

80484af: 89 e5 mov Sesp, sebp 

80484b1: 51 push $ecx 

80484b2: 83 ec 04 sub S0x4,%esp 
push('a'); 

80484b5: c7 04 24 61 00 00 00 movil $0x61, ($esp) 

80484bc: eg iy ie ies dE call 80483d8 <push@plt> 












































和 第 3 节 “ 毅 态 库 ”链接 静态 库 不 同 ，push 函 数 没 有 链接 到 可 执行 文件 中 。 而 且 call 8048348 
<push@p1it> 这 条 指令 调用 的 也 不 是 push 通 数 的 地 址 。 共 享 库 是 位 置 无 关 代码 ， 在 运行 时 可 以 加 
载 到 任意 地 址 ， 其 加 载 地 址 只 有 在 动态 链接 时 才能 确定 ， 所 以 在 main 函 数 中 不 可 能 直接 通过 绝 
RIXA Huan E 7k, that ale Sh KR push KA. RA ENTS, Fe A gab ERE 


























































































































: (gdb) start 

: Breakpoint 1 at 0x80484b5: file main.c, line 7. 
| Starting program: /home/akaedu/somedir/main 
conan at main. 7 





;7 Bash a 

| (gc) ei 

: 0x080484bc 7 push('a'); 
: (gdb) si 


: 0x080483d8 in push@plt () 
i Current language: auto; currently asm 





























gans 


























跳 转 到 .pit 段 中 ， 现 在 将 要 执行 一 条 jmp *0x804a008 指 令 ， 我 们 看 看 0x804a008 这 个 地 址 里 存 
的 是 什么 : 





| (gdb) x 0x804a008 
| 0x804a008 « GLOBAL OFFSET TABLE +20>: 0x080483de 





























原来 就 是 下 一 条 指令 push soxiol Dub. AKIR Pu 
: (gdb) si 
; 0x080483de in push@plt () 
: (gdb) si 
: 0x080483e3 in pushGplt () 
: (gdb) si 
; 0x080483a8 aba 2? (()) 
: (gdb) si 
: 0x080483ae in ?? () 
i (gdb) si 
: Oxbe0oa0s0: 3m 22) () from 7 lib/ld-linux so-2 





























Ig IAEA Y as ibn /1ib/ld-linux.so.2, TEE PS aA WEFT push Pa, Ri 
不 深入 这 些 细节 了 ， 直 接 用 finish 命 令 JR [E] Elma in FR 数 : 


‘ (gdb) finish 


























i Run till exit from #0 
at main.c:8 


() 


i main 
TS 


: Current language: 


return 0; 
auto; 


Oxb806a080 in ?? 


cu 


() from /lib/ld-linux.so.2 


rrently c 


























0xb803f47c 


这 时 再 看 看 0x804a008 这 个 地 址 里 存 的 是 什么 
: (gdb) x 0x804a008 
: 0x804a008 <_GLOBAL_OFFSET_TABLE_+20>: 
: (gdb) x 0xb803f47c 
: Oxb803f47c «push»: 


0x53e58955 







































































SIE Bent CAE push PA AY HOE EK BO, BrEA CA H push HANA LAE eM jmp 
RE 令 跳 到 它 的 地 址 ， TEAREN i/d linux.so.2 做 动态 链接 了 。 
共享 库 的 命名 惯例 
你 可 能 已 经 注意 到 了 ， 系 统 的 共享 库 通常 带 有 符号 链接 ， 例 如 : 
pes y P ea S A a 


i -TWXI-Xr-X 
! lrwxrwxrwXx 


| cueyyse-ciec 
| lrWXIWXIWX 


|: libcap.so.2. 


|-rw-r--r-- 
| lrEWXIWXIWX 
i 8.90. 





i$ ls -1 /usr/lib/libc.so 
| rw- === I POSE Toor 230. 2(009-—034—99 Biss /msie/iilo/ woe, se 


Va espesosis 


JL moore de ox. 1L341509)24. 2009-0-09 229149) l3]6(6—2 9c 90. io 


1 root root 
10 
JL rooe exes 
ME OI EIS 
10 
EE oot Loot 





1 root root 
SO 


Ld 2008-07-04 055393 JaJ5eEg9.so.l > 


ISSN GET ES ORIS 200 ea so 


LA ZOOZ=Li=Oil 09255 THISE GOA => 


L13192 2008=06=12 21339% WW C TOT SOo 2 4A) 


lA 220)09)—(1.—1/9. (9g 29 ases 9o => 














按照 共享 库 的 命名 惯例 ， 每 个 共享 库 有 三 个 文件 名 : 
(而 不 是 符号 链接 ) 的 名 字 是 real name ， 包 含 








的 库 文 件 
的 1 








Fi 








AR 


ibcap.so.1.10^ libc-2.8.90.so^*fo 





real name. sonameflllinker name. HUE 


完整 的 共享 库 版 本 号 。 例 如 上 面 


























sonamexe 

















口 一 致 ， 因 此 应 用 程 请 























就 可 以 
信赖 于 1ibpcap. so.1, 
说 ， 真 正 的 


b, 2 























用 。 例 如 上 面 的 1 


个 符号 链接 的 名 字 ， 只 包含 共享 库 的 主 版 本 号 ， 主 版 本 号 一 致 即 可 保 
的 . dynamic H RIOR H 
ibcap.so.1 和 1ibcap.so.2 是 两 个 主 版 本 号 不 











FEBR 数 的 接 
， 只 要 soname 一 致 ， 这 个 共享 库 


同 的 1ipcap， 有 些 应 用 程 





ME 























上 享 库 的 soname 






































有 些 应 用 程 有 


些 应 








依赖 于 1 
它 文 件 不 管 是 1ibcap. so.1. 10 还 是 lipcap. so.1.11 痢 可 以 

















EH 
但 对 于 依赖 iibcap.so.1 的 应 用 程序 来 
用 ， 所 以 使 用 





ibcap.so.2, 






































H 























方便 地 升级 
号 有 一 点 特殊 ， 


linker name 仅 在 编译 








车 文件 而 不 需要 蛋 
libc-2.8.90.so 的 主 版 本 号 是 6 而 不 是 2 或 2.8。 














EH 





新 编译 应 











H 





链接 时 使 


AN FP ER, fs 








name 是 库 文 件 的 一 人 1 
个 linker name ， 它 是 





它 是 


Wo Bt 
一 段 链接 脚本 : 
































用 ，scc 的 -z 选 项 应 该 指 
车 接 ， 有 的 linker name 





Jf iibc 的 版 本 编 

















共享 库 可 以 很 
这 ， 这 是 静态 库 所 没有 的 优点 io TEX 








XElinker name 所 在 的 目录 。 有 的 linker 
是 一 段 链接 脚本 。 例 如 上 面 的 1ipc. so 就 是 一 




















1S cat /usr/ 
i /* GNU ld s 


lib/libe.so 
(nts 


Use the shared library, 


the stat 


: GROUP ( 


alg; Jiniguegusyr 


tela, Loe lineo 


| so try that secondarily. 
: OUTPUT FORMAT (e1£32-1386) 
/lib/libc.so.6 /usr/lib/libc nonshared.a 


but some functions are only in 


x 


AS NEEDED ( 





下 面 重 新 编译 我 们 的 iibstack， 指 定 它 的 soname: 














PS gcc -shared -Wl,-soname,libstack.so.1 -o libstack.so.1.0 
i stack.o push.o pop.o is_empty.o 


























是 lipstack.so.1.0， 是 real name ， 但 这 个 库 文 件 中 记录 了 它 











这 样 编译 生成 的 库 文 从 
的 soname 是 1ibstack ;80.12 





Name/Value 


Tag Type 
0x00000001 (NEEDED) Shared library: 
P MLC- es 6] 
Library soname: 


: 0x0000000e (SONAME) 
: [libstack.so.1] 





me eae! 


如 果 把 1ibstack.so.1.0 所 在 的 目录 加 入 /etc/ld.so.conf 1 然后 运行 1dconfig 命 
自动 创建 一 个 soname 的 符号 链接 : 









































令 ldconfig 





: $ sudo ldconfig 

PS dug sae 

| lrwxrwxrwx 1 root root 
i-> libstack.so.1.0 

; -rwxr-xr-x 1 djkings djkings 10142 2009-01-21 17:49 


| libstack.so.1.0 


ilb 20(09)—(011L—23L 3/7852 jeg elss Go 1. 











TÉmain s c 却 会 报错 : 

















: $ gcc main.c -L. -lstack -Istack -o main 
M isn bam, Las Cannot finds dstesk 
: collect2: ld returned 1 exit status 





























注意 ， 要 做 这 个 实验 ， 你 得 把 先前 编译 的 1ibstack 共 享 库 、 静 态 库 都 删 掉 ， 如 果 先 前 找 
到 /1ip 或 者 /usr/1iib 下 了 也 删 挥 ， 只 留 下 libstack.so.1.0 和 1lipstack.so.1， 这 样 你 会 发 现 编译 
器 不 认 这 两 个 名 字 ， 因 为 编译 器 只 认 linker name 。 可 以 先 创建 一 个 linker name 的 符号 链接 ， 然 


后 再 编译 就 没 问 题 了 : 
















































































: $ In -s libstack.so.1.0 libstack.so 
is Gee maim- -€ =i, —Istack —Istack -0 meim 


下 一 页 





5. 虚拟 内 存 管理 





5. 虚拟 内 存 管 到 





第 20 章 链接 详解 





5. 虚拟 内 存 管理 


我 们 知道 操作 系统 利用 体系 结构 提供 的 VA 到 PA 的 转换 机 制 实现 虚拟 内 存 管 理 。 有 了 共享 库 的 基 
础 知识 之 后 ， 现 在 我 们 可 以 进一步 理解 虚拟 内 存 管 理 了 。 首 先 分 析 一 个 例子 : 





















































PERDERE DY TIME CMD 
: 29977 pts/0 00:00:00 bash 
50032 pts/0 00:00:00 ps 
:$ cat /proc/29977/maps 
: 08048000-080£4000 r-xp 00000000 08:15 688142 /bin/bash 
:080£4000-080£9000 rw-p 000ac000 08:15 688142 /bin/bash 
:080£9000-080fe000 rw-p 080f£9000 00:00 0 
: 09283000- 09497000 rw-p 09283000 00:00 0 [heap] 
: b7ca8000- -b7cb2000 r-xp 00000000 08:15 581665 
; /lib/tls/i686/cmov/libnss files-2.8.90.so 
:b7cb2000-57cb3000 r--p 00009000 08:15 581665 
i /lib/tls/i686/cmov/libnss files-2.8.90.so 
; b7cb3000-b7cb4000 rw-p 0000a000 08:15 581665 
; /lib/tls/i686/cmov/libnss_files—2.8.90.so 
| b7e15000- b7£6d000 r-xp 00000000 08:15 581656 
wy libby ple bene, emev/libe—258.90nco 
: b7£6d000-b7£6£000 r--p 00158000 08:15 581656 
| /lib/tl1s/i686/cmov/libc-2.8.90.so 
i b7£E6£000- b7£70000 rw-p 0015a000 08:15 581656 
i / lib ils/V6e6/emev/libe—2. 8-90. se 

















: b7£bd000-b7£d7000 r-xp 00000000 08:15 565466 /lib/1d- 
:2.8.90.so 

: b7fd7000-b7fd8000 r-xp b7fd7000 00:00 0 [vdso] 

: b7£d8000-b7£d9000 r--p 0001a000 08:15 565466 /LA Me 
t 258. 90.586 

i b7£d9000-b7£da000 rw-p 0001b000 08:15 565466 (also 
i 2.8.90.s0 

: b£acb000-bfada000 rw-p bffeb000 00:00 0 [stack] 




















用 ps 命令 查看 当 IUE SY & HE HTE, 得 上 bash 进 程 的 id 是 29977 , 然后 用 cat /proc/29977/maps 命 
令 查 看 它 的 虚拟 地 址 空间 。/proc 目 录 中 的 文件 并 不 是 真正 的 磁 癌 文件 ， 而 是 由 内 核 虚 拟 出 来 的 
文件 系统 ， 当 前 系统 中 运行 的 每 个 进程 在 /proc 下 都 有 一 个 子 目录 ， 目 录 名 就 是 进程 的 |d， 查 看 
目录 下 的 文件 可 以 得 到 该 进程 的 相关 信息 。 此 外 ， 用 pmap 29977 命 令 也 可 以 得 到 类 似 的 输出 结 


FH 
YR o 






































































































































图 20.4. 进程 地 址 空间 








间 ， 在 这 里 和 


内 核 : 


thk] 





Oxc0000000 
TUI 0xbf?????? 
撤 变 最 
内 存 映射 区 
- = = — [break 


Data Segment 


Text Segment 


0x8048000 








在 第 4 节 “MMU" 讲 过 ，x86 平 台 的 虚拟 地 址 空 
前 3GB (0x0000 0000~Oxbfff ffff) 是 用 
o a 8000-0x080f 4000 是 从 /pinypash 加 载 到 内 存 的 ， 











1 得 到 了 印证 

















为 *-x， 表 示 Text Segment, 


9000 也 是 从 /bin/basn 加 载 到 oe 























.text 段 、 -rodatafx. 


访问 权限 为 rw- 5 





x [A] 70x0000 0000~0xffff ffff , 
户 空 间 ， 后 1GB (0xc000 0000~ -Oxffff ffff) 是 内 核 空 
.plt 段 等 。 
表示 Data Segment, 





大 致 上 








访问 权限 
0x080f 4000-0x080f 
EJ, 













































































































































































































































































































































































































































































& .data Bt. .bss 段 等 。 

0x0928 3000-0x0949 7000 不 是 从 磁盘 文件 加 载 到 内 存 的 ， 这 段 空间 称 为 堆 (Heap) ， 以 后 会 

讲 到 用 malloc 函 数 动 态 分 配 内 存 是 在 这 里 分 配 的 。 从 0xb7ca 000 a 射 空 x [R] , 

ASE EZ} JL Segment, &E T Segment£ FAM AIA. ALAS, MEZE d 

地 址 (0x0949 7000) 到 共享 库 映射 空间 的 起 始 地 址 (Oxb7ca 8000) 之 间 有 很 大 的 地 址 空 

在 动态 :分配 内 存 时 堆 和 空间 是 可 以 向 高 地 址 增长 的 。 扒 空间 的 地 址 上 限 (0x09497000) fW 

为 Break， 堆 空 间 要 向 高 地 址 增长 就 要 抬 高 Break， 了 映射 新 的 虚拟 内 存 页 面 到 物理 内 存 ， 这 是 通 
过 系统 调用 brkx 实 现 的 ，malloc 函 数 也 是 调用 brk 向 内 核 请 求 分 配 内 存 的 。 

/lib/ld-2.8.90.so 就 是 动态 链接 器 /lipy/la-linux.so.2， 后 者 是 前 者 的 符号 链接 。 标 

有 [vaso] ou uu 射 空 X[RJ, 我 们 讲 过 这 个 共 享 库 是 由 门 核 虚拟 出 来 

的 。0xbfac 5000-Oxbfad a000 是 栈 空间 ， 其 中 高 地 址 的 部 分 保存 着 进程 的 环境 变量 和 命令 行 参 

数 ， 低 地 址 的 部 分 保存 函数 栈 帧 ， 栈 空 SER eS NCE, 但 显然 没有 堆 空 s 间 那么 大 的 可 供 

增长 的 余地 ， 因为 实际 的 应 用 程 序 动态 分 配 大 量 内 存 的 并 不 少见 ， 但 是 有 几 十 层 深 的 函数 调用 

并 日 每 层 调 用 都 有 很 多 局 部 变量 的 非常 少见 。 总 之 ， 栈 空间 是 可 能 用 尽 的 ， 并 且 比 堆 空 间 更 容 

BAHS, CE 3 T "SEVA HERE, 无 穷 递 SFR X HI ZR GEL BEB TR 0 


虚拟 内 存 管 理 起 到 了 什么 作用 呢 ”可 以 从 以 下 几 个 方面 来 理解 。 
第 一 ， 虚 拟 理 可 以 控制 物理 内 存 的 访问 权限 。 
都 可 以 读 写 ， 而 操作 系统 : 


存 保护 机 制 实现 的 。 例如 ，Text Segment 被 只 读 保护 起 来 ， 防 止 被 错误 的 指令 意外 改写 ， 内 核 














内 存 管 
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同 的 页 面具 有 不 同 的 访 











] 权 限 ， 








里 内 存 本 身 是 不 限制 访问 的 ， 任 何 地 址 











这 是 利用 CPU 模 式 和 MMU 的 内 






































地 址 空间 也 被 保 扩 起 来 ， 防止 在 用 户 模式 下 执行 错误 的 指令 意外 改写 内 核 数据 。 这 样 ， 
误 指 令 或 亚 意 代码 的 破坏 能 力 受到 了 限制 ， ME EARRA 


















































终止 ， 而 不 





统 的 稳定 性 。 
第 二 ， 虚 拟 内 存 管理 最 主要 的 作用 是 让 每 个 进程 有 独立 的 地 址 空间 。 



























































所 谓 独 立 的 地 
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执行 错 














响 整个 系 
























































指 ， 不 同 进程 中 的 同一 个 VA 被 MMU 了 映射 到 不 同 的 PA， 并 且 在 某 一 个 进程 中 访问 任 

















apti 








LIA 


BY BEDS IH] $078 hE, REE El — 1H ERE ECT DUCHEHR e BUS SE BECA 
















































































非法 内 存 访问 都 不 会 意外 改写 其 它 进程 的 数据 ， 不 会 影响 其 它 进程 的 运行 ， 从 而 保证 整个 系统 
PUK ait HSE 























的 稳定 性 。 pni 每 个 进程 都 认为 自己 独占 整个 虚拟 地 址 空间 ， 
现 会 比较 容易 ， 不 必 考 虑 各 进程 的 地 址 范围 是 否 冲突 。 

































































继续 前 面 的 实验 ， 再 打开 一 个 终端 窗口 ， 看 一 下 这 个 新 的 bashn 进 程 的 地 址 空 








前 的 bash 进程 地 址 空间 的 布局 差不多 : 





TORE Rea A 














S ps 
1 PID TTY TIME CMD 
: 30697 pts/1 00:00:00 bash 
: 30749 pts/1 00:00:00 ps 


$ cat /proc/30697/maps 


:08048000-080£4000 r-xp 00000000 08:15 688142 /bin/bash 
: 080£4000-080£9000 rw-p 000ac000 08:15 688142 /bin/bash 
: O80£9000-080fe000 rw-p 080f9000 00:00 0 

: 082d7000-084£9000 rw-p 082d7000 00:00 0 [heap] 


i b7cf£1000-b7cfb000 r-xp 00000000 08:15 581665 
; /lib/tls/i686/cmov/libnss files-2.8.90.so 
: b7cfb000- zit — pe O00 O90 OOO Sanam SELES 
| /lib/tls/i686/cmov/libnss_files-2.8.90.so 
i b7cfc000-b7cfd000 rw-p 0000a000 08:15 581665 
; /lib/tls/i686/cmov/libnss_files—2.8.90.so 
! b7e5e000- b7£b6000 r-xp 00000000 08:15 581656 
usb LE IO mov EpL 2. 690,60 
: b7£b6000-b7£b8000 r--p 00158000 08:15 581656 
| Ios OBO) cmev/libe cu 90. So 
: b7£58000-b7£59000 rw-p 001528000 08:15 581656 
"obo i ile/ eee, emo 1 tbe—2 6 US 

















: b8006000-b8020000 r-xp 00000000 08:15 565466 /lib/ld- 
MAE MOOS 

: b8020000-b8021000 r-xp b8020000 00:00 0 [vdso] 

: b8021000-b8022000 r--p 0001a000 08:15 565466 /LS JMigl— 
dap doo 

:158022000-58023000 rw-p 000150000 08:15 565466 /lib/ld- 
: 2.8.90. 50 

: bff0e000-bff23000 rw-p bffeb000 00:00 0 [stack] 

















SA), URMI 


该 进程 也 占用 了 0x0000 0000-0xbfff ffff 的 地 址 空间 ，Text Segment 也 是 0x0804 8000-0x080f 








4000, Data Segment 也 是 0x080f 4000-0x080f 9000, ， 和 先前 的 进程 















































统 中 同时 运行 着 ， 它 们 的 Data Segment 占 用 相同 的 VA ， 但 是 两 个 进程 各 目 干 各 自 


EH. RIF, 5 

















因为 这 些 








Ehhh 
是 编译 链接 时 写 进 /bin/pash 这 个 可 执行 文件 的 ， 两 个 进程 都 加 载 它 。 这 两 个 进程 二 同一 个 系 








FT 












































然 Data Segment 中 的 数据 应 该 是 不 同 的 ， 相 同 的 VA 怎 么 会 有 不 同 的 数据 呢 ? 











不 同 的 PA。 如 下 图 所 示 。 





图 20.5. 进程 地 址 空间 是 独立 的 











因为 它 
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EI 情 FA 














, 3E 











门 被 映 映 





bash pid=29977 


08048000 
080f4000 
VA 


bash pid=30697 


VA 
08048000 
08 0f4000 


从 图 中 还 可 以 看 到 ， 两 个 进程 都 是 bash 进程 ，Text Segment 是 一 样 的 ， 并 且 Text Segment 是 只 
读 的 ， 不 会 被 改写 ， 因 此 操作 系统 会 安排 两 个 进程 的 Text Segment 共 享 相同 的 物理 页 面 。 由 于 
每 个 进程 都 有 自己 的 套 VA 到 PA 的 映射 表 ， 整 个 地 址 空间 中 的 任何 VA 都 在 每 个 进程 自己 的 星 
射 表 中 查找 相应 的 PA， 因 此 不 可 能 访问 到 其 它 进程 的 地 址 ， 也 就 没有 可 能 意外 改写 其 它 进程 的 
数据 。 


另外 ， 注 意 到 两 个 进程 的 共享 库 加 载 地 址 并 不 相同 ， 共 享 库 的 加 载 地 址 是 在 运行 时 诀 定 的 ， 而 
nq NAE -文件 中 。 但 即使 如 此 ， 理 页 面 中 的 
LER, 只 读 的 部 分 是 共享 的 ， 可 读 可 写 的 部 分 不 共享 。 


BAEK TUR 内 存 。 比 如 iibc， 系 统 中 几乎 所 有 的 进程 都 映射 libc 到 自己 的 进程 地 
空间 ， 而 1ibe 的 只 读 部 分 在 物理 内 存 中 只 需要 存在 一 份 ， 就 可 以 被 所 有 进程 共享 ， 这 就 是 “ 共 
享 库 " 这 个 名 称 的 由 来 了 。 


现在 我 们 也 可 以 理解 为 什么 共享 库 必须 是 位 置 无 关 代 码 了 。 比 如 1ibc， 不 同 的 进程 虽然 共 
享 1ipc 所 在 的 物理 页 面 ， 但 这 些 物理 页 面 被 映射 到 各 进程 的 虚拟 地 址 空间 时 却 位 于 不 同 的 地 
址 ， 所 以 要 求 1ipc 的 代码 不 管 加 载 到 什么 地 址 都 能 正确 执行 。 


第 三 ，VA 到 PA 的 映射 会 给 分 配 和 释放 内 存 带 来 方便 ， 物 理 地 址 不 连续 的 几 块 内 存 可 以 映射 成 虚 
拟 地 址 连续 的 一 块 内 存 。 比 如 要 用 malloc 分 配 一 块 很 大 的 内 存 空间 ， 虽 然 有 足够 多 的 空闲 物理 
内 存 ， 却 没有 足够 大 的 连续 空闲 内 存 ， 这 时 就 可 以 分 配 多 个 不 连续 的 物理 页 面 而 映射 到 连续 的 
虚拟 地 址 范围 。 如 下 图 所 示 。 
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图 20.6. 不 连续 的 PA 可 以 映射 为 连续 的 VA 





VA 


09400000 
09401000 
09402000 





第 四 ， 一 个 系统 如 果 同 时 运行 着 很 多 进程 ， 为 各 进程 分 配 的 。 d 的 物 
理 内 存 ， 虚拟 内 存 和 理 使 得 这 种 情况 下 各 进程 仍然 能 够 正常 运行 。 因 为 各 进程 分 配 的 只 不 过 是 
虚拟 内 存 的 页 面 ， 这 些 页 面 的 数据 可 以 映射 到 物理 页 面 ， 也 可 以 临时 保 
理 页面 ， 在 磁盘 上 临时 保存 虚拟 内 存 页 面 的 可 能 是 一 个 磁盘 分 区 ， 也 可 能 是 一 个 人 磁盘 文件 ， 称 














































































































































































































为 交换 设备 (Swap Device) 。 当 物理 内 存 不 够 用 时 ， 将 一 些 不 常用 的 物理 页 面 中 的 数据 临时 保 
存 到 交换 设备 ， 然 后 这 个 物理 页 面 就 认为 是 空 闪 的 了 ， 可 以 重新 分 配给 进程 使 用 ， 这 个 过 程 称 
为 换 出 (Page out) 。 如 果 进 程 要 用 到 被 换 出 的 页 面 ， 就 从 交换 设备 再 加 载 回 物 ] HAH, 这 称 
为 换 入 (Page in) 。 换 出 和 换 入 操作 统称 为 换 页 (Paging) ， 因 此 : 


系统 中 可 分 配 的 内 存 总 量 = 物理 内 存 的 大 小 + 交换 设备 的 大 小 
如 下 图 所 示 。 第 一 张 图 是 换 出 ， 将 物理 页 面 中 的 数据 保存 到 磁盘 ， 并 解除 地 址 映射 ， 释 放 物 理 


页 面 。 第 二 张 图 是 换 入 ， 从 空 s 闲 的 物理 页 面 ! 分 配 一 个 ， 将 磁盘 和 暂 存 的 页 面 加 载 回 内 存 ， 并 建 
立地 址 映射 。 
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图 20.7. 换 页 
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1. 预 处 理 的 步骤 

现在 我 们 全 面 了 解 一 下 C 编 译 需 做 语法 解析 之 前 的 预 处 理 步 骤 : 
1、 把 第 2 节 “ 常 量 ? 提 到 过 的 三 连 符 蔡 换 成 相应 的 单字 符 。 第 十 节 "继续 Hello World" 还 提 到 
过 ，Windows 平 台 的 文本 文件 用 \z\n 做 行 分 隔 符 ， 而 Linux 平 台 用 \n 做 行 分 隔 符 ，C 编 译 硕 要 能 
够 处 理 这 种 差别 ， 不 管 是 哪 种 行 分 隔 符 ， 以 下 统称 为 换行 。 

2、 把 用 \ 字 符 续 行 的 多 行 代码 接 成 一 行 。 例 如 : 
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derine olin ne MONN 


Usos ILI 




















经 过 这 个 预 处 理 步骤 之 后 接 成 一 行 jaefine STR "hello, " "world"。 这 种 续 行 的 写法 要 求 \ 后 面 
紧 跟 换 行 ， 中 间 不 能 有 其 它 空 白字 符 。 


3、 把 注释 (不管 是 单行 注释 还 是 多 行 注 释 ) 都 蔡 换 成 一 个 空格 。 


4、 经 过 以 上 两 步 之 后 去 掉 了 一 些 换行 ， 有 的 换行 在 续 行 过 程 中 去 掉 了 ， 有 的 换行 在 多 行 注释 之 
1， 也 随 着 注释 一 起 去 掉 了 ， 剩 下 的 代码 行 称 为 逻辑 代码 行 。 然 后 预 处 理 需 把 逻辑 代码 行 划分 

成 Token 和 空白 字符 ， 这 时 的 Token 称 为 预 处 理 Token ， 包 括 标识 符 、 整 数 常量 、 浮 点 数 常 量 、 

字符 常量 、 字 符 串 、 运 算 符 和 其 它 符号 。 继 续 上 面 的 例子 ， 两 个 源 代码 行 被 接 成 一 个 逻辑 代码 

行 ， 然 后 这 个 逻辑 代码 行 被 划分 成 Token 和 空白 字符 : #，define， 空 格 ，sTR， 空 格 ，"hello， 

w Tab, Tab, "world"o 


在 划分 Token 时 可 能 会 遇 到 歧义 ， 例 如 a+++++b 这 个 表达 式 ， 既 可 以 划分 成 sa，++，++，+，b， 也 
可 以 划分 成 sa，++，+，++，b。C 语 言 规定 按照 从 前 到 后 的 顺序 划分 Token ， 每 个 Token 都 要 尽 可 
能 长 ， 所 以 这 个 表达 式 应 该 按 第 一 种 方式 划分 。 其 实 按 第 一 种 方式 划分 Token 是 不 合 语法 的 ， 因 
为 ++ 运 算 符 的 操作 数 必须 是 左 值 ， 如 果 a 是 左 值 则 a++ 是 合乎 语法 的 ， 但 a++ 这 个 表达 式 的 值 就 不 
再 是 左 值 了 ， 所 以 a++ 再 ++ 就 不 合 语法 了 ， 按 第 二 种 方式 划分 Token 反 倒是 合乎 语法 的 。 即 便 如 
此 ，C 编 译 需 对 这 个 表达 式 做 词法 分 析 时 还 是 会 按 第 一 种 方式 划分 Token， 然 后 在 语法 和 语义 分 
析 时 再 报错 。 


5、 在 Token 中 识别 出 预 处 理 指示 ， 做 相应 的 预 处 理 动 作 ， 如 明 
相应 的 源 文件 包含 进来 ， 并 对 源 文件 做 以 上 1-4 步 预 处 理 。 如 果 遇 


人 we : 统计 随机 数 "就 认识 了 预 处 理 指示 这 个 概念 ， 现 在 给 出 它 的 严 
格 定义 。 一 条 预 处 理 指示 由 一 个 逻辑 代码 行 组 成 ， 以 + 开头 ， 后 面 跟 若 干 个 预 处 理 Token ， 在 预 
处 理 指示 中 允许 使 用 的 空白 字符 只 有 空格 和 Tab。 
6、 找 出 字符 常量 或 ! 的 转 义 序列 ， 用 相应 的 字 市 来 替换 它 ， 比 如 把 \n 替 换 成 字 广 0x0a。 


字 
7、 把 相 邻 的 字符 串 连 接 起 来 。 继 续 上 面 的 例子 ， 如 有 果 代 码 中 有 : 









































































































































































































































































































































































































































遇 到 #inciude 预 处 理 指示 ， 则 把 
到 宏 定义 则 做 宏 展 开 。 
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经 过 第 4 步 处理 划 分 成 以 下 Token: printf, (, íT, Tab, str, ), ;, fT. 2 icr di 
开 后 变 成 以 下 Token : printf, (, 换行 ， Tab, "hello, ", Tab, Tab. "world", 9) 5 $5 换 
行 。 然 后 把 相 邻 的 字符 串 连 接 起 来 ， 变 成 以 下 Token: printf，(， 换 行 ，Tab ，"hello， 
world", ), ，; ， 换 行 。 


8、 经 过 以 上 处 理 之 后 ， 把 空白 字符 丢掉 ， 把 Token 交 给 C 编 译 器 做 语法 解析 ， 这 时 就 不 再 是 预 
处 理 Token ， 而 称 为 C Token 了 。 这 里 丢掉 的 空白 字符 包括 空格 、 换 行 、 水 平 Tab、 HEEITab. 
分 页 符 。 继 续 上 面 的 例子 ， 最 后 交 给 C 编 译 器 做 语法 解析 的 Token 是 : printf, (, "hel 
worlg"，) ，;。 注 意 ， 把 一 个 预 处 理 指 示 写 成 多 行 要 用 \ 续 行 ， 因 为 根据 定义 ， 条 预 处 理 指示 
只 能 由 一 个 逻辑 代码 行 组 成 ， 而 把 C 代 码 写成 多 行 则 不 需 : 用 \ 续 行 ， 因 为 换行 在 C 代 码 中 只 不 
过 是 一 种 空白 字符 ， 在 做 语法 解析 时 所 有 空白 字符 都 已 经 丢掉 了 。 


de= E= 下 二 网 
第 21 章 预 处 理 起 始 页 2. XE 











































































































































































































































































































2 X 
上 二 页 第 21 章 预 处 理 E p 
2. FEM 
较 大 的 项 目 都 会 用 大 量 的 宏 定 义 来 组 织 代码 ， 你 可 以 看 看 /usr/inciude 下 面 的 头 文件 中 用 了 多 少 
个 安定 义 。 看 起 来 安 展 开 就 是 做 个 蔡 换 而 已 ， 其 实 里 面 有 比较 复杂 的 规则 ，C 语 言 有 很 多 复杂 但 


` 常 用 的 语法 规则 本 书 并 不 涉及 ， 但 有 关 宏 展开 的 语法 规则 本 市 却 力图 做 全 面 讲 解 ， 因 为 它 很 
重要 也 很 常用 。 


2.1. RAMA ML 

以 前 我 们 用 过 的 #aefine N 20 或 #define STR "hello，world" 这 种 安定 义 可 以 称 为 变量 式 宏 定义 
(Object-like Macro) ， 宏 定义 名 可 以 像 变 量 一 样 在 代码 中 使 用 。 男 外 一 种 宏 定义 可 以 像 函 数 
调用 一 样 在 代码 中 使 用 ， 称 为 函数 式 宏 定义 (Function-like Macro) 。 例 如 编辑 一 个 文 


件 main.c: 






















































































































































































ik = MAX(i&0x0f, j&OxOf) 




















我 们 想 看 第 二 行 的 表达 式 展开 成 什么 样 ， 可 以 用 gcc 的 -E 选 项 或 cpp 命 令 ， 尽管 这 个 C 程 序 不 合 语 
法 ， 但 没关系 ， 我 们 只 做 预 处 理 而 不 编译 ， 不 会 检查 程序 是 否 符合 C 语 法 。 
































$ cpp main.c 

go L Wnaim. G4 
pa d Wago e= Ln 
:# 1 "<command-line>" 
pa ee ey 

k 


= ((i1&0x0f)»(j&0x0f)? (i&O0x0f): (J&0x0F) ) 




















就 像 函 数 调用 一 样 ， 把 两 个 实 参 分 别 蔡 换 到 宏 定义 中 形 参 a 和 b 的 位 置 。 注 意 这 种 函数 式 宏 定义 
和 真正 的 函数 调用 有 什么 不 同 : 


1、 函 数 式 安定 义 的 参数 没有 类 型 ， 预 处 理 器 只 负责 做 形式 上 的 替换 ， 而 不 做 参数 类 型 检查 ， 所 
以 传 参 时 要 格外 小 心 。 


2、 调 用 真正 函数 的 代码 和 调用 函数 式 宏 定义 的 代码 编译 生成 的 指令 不 同 。 如 有 果 Mmax 是 个 真正 的 
函数 ， 那 么 它 的 函数 体 return a > b ? a: b; 要 编译 生成 指令 ， 代 码 中 出 现 的 每 次 调用 也 要 编 
译 生 成 传 参 指令 和 call 指 令 。 而 如 有 果 Max 是 个 函数 式 宏 定义 ， 这 个 宏 定 义 本 里 倒 不 必 编 译 生 成 指 
令 ， 但 是 代码 中 出 现 的 每 次 调用 编译 生成 的 指令 都 相当 于 一 个 函数 体 ， 而 不 是 简单 的 几 条 传 参 
指令 和 call 指 令 。 所 以 ， 使 用 冰 数 式 宏 定 义 编译 生成 的 目标 文件 会 比较 大 。 


3、 定义 这 种 宏 要 格外 小 心 ， 如 果 上 面 的 定义 写成 +aefine MAX (a, b) (a»b?a:b) ， 省 去 内 层 括 
号 ， 则 宏 展开 就 成 了 k = (ig0x0f>jg0x0f?ig0x0f:;jg0x0f) ， 运 算 符 的 优先 级 就 错 了 。 同 样 道 
理 ， 这 个 宏 定义 的 外 层 括号 也 是 不 能 省 的 ， 想 一 想 为 什么 。 


4、 调 用 函数 时 先 求 实 参 表达 式 的 值 再 传 给 形 参 ， 如 果实 参 表 达 式 有 Side Effect， 那 么 这 些 Side 
Effect 只 发 生 一 次 。 例 如 Max(++a，++b) ， 如 果 Mmax 是 个 真正 的 函数 ，a 和 vb 只 增加 一 次 。 但 如 
果 max 是 上 面 那样 的 宏 定义 ， 则 要 展开 成 x = ((++a) > (++b) ? (++a) : (++b)) ，a 和 b 就 不 一 定 是 增加 


















































































































































































































































































































































一 次 还 是 两 次 了 。 




















5、 即 使 实 参 没 有 Side Effect， 使 用 函数 式 宏 定义 也 往往 会 导致 较 低 的 代码 执行 效率 。 下 面 举 一 
个 极端 的 例子 ， 也 是 个 很 有 意思 的 例子 。 


























| #define MAX(a, b) ((a)>(b)? (a): (b)) 
| int e) = { S5 S, 5p 42 dip Op Sp Tr G, 4 He 


ne max (int n) 


E 

: return n == 0 ? a[0] : MAX(a[n], max(n-1)); 
- 

: int main(void) 

: { 

max(9); 

: return 0; 

RJ 
























































这 段 代 码 从 一 个 数组 中 找 出 最 大 的 数 ， 如 果 Max 是 个 真正 的 函数 ， 这 个 算法 就 是 从 前 到 后 遍历 一 
裔 数组 ， 时 间 复 杂 度 是 O(n)， 而 现在 wax 是 这 样 一 个 函数 式 宏 定 义 ， 思考 一 下 这 个 算法 的 时 间 复 
ABER AP >? 




















































































































SUE PRA XE SUA IE B] PASH EA TR eR, TEBE OSEE m SE e e INR DET 
BOK, KAER TAARE (e. ERRUR RIN 作 ， 因 此 那些 简短 并 且 被 频繁 
调用 的 函数 经 常用 函数 式 宏 定 义 来 代 蔡 实现 。 例 如 C 标 准 库 的 很 多 函数 都 提供 两 种 实现 ， 一 种 是 
真正 的 水 数 实现 ， 一 种 是 宏 定 义 实现 ， 这 一 点 以 后 还 要 详细 解释 。 










































































TIT 




































































PEG: EXE EID WES 文 样 的 形式 ( 取 自 内 核 代码 include/1inux/pm.h) ; 


| #define device init wakeup(dev,val) \ 


ele 4 \ 
device can wakeup(dev) = !!(val); \ 
device set wakeup enable(dev,val); \ 
) while(0) 
































为 什么 要 用 ae { ... } while(0) 括 起 来 呢 ? 不 括 起 来 会 有 什么 问题 呢 ? 


i #define device init wakeup(dev,val) \ 
: device can wakeup(dev) = !! (val); \ 
device set wakeup enable (dev, val); 





paie (a s 0) 
: device init wakeup(d, v); 


















































这 样 安 展 开 之 后 ， 函 数 体 的 第 二 条 语句 不 在 it 条 件 中 。 那 么 简单 地 用 { . .，} 括 起 来 组 成 一 个 语 
RAT? 


| #define device_init_wakeup(dev,val) \ 
{ device_can_wakeup(dev) = !!(val); \ 
device_set_wakeup_enable(dev,val); } 














eave STE EON. 
device_init_wakeup(d, v); 
: else 


P continue; | 





aH FEdevice_init_wakeup(d, 








v) ;末尾 的 ;号 


























跟 else 配 对 。 因此 ， QO, vn} 











用 ， 可 如 采写 了 这 个 ;号 ， 安 展开 之 后 就 有 语 祖 





RARE GILT; 








A FERRA BE 











彰 误 ，if 语 句 被 这 个 ;号 














while (0) 是 一 种 比较 好 的 解决 办 法 。 















































aq. Cif gU EDU 

















HERH S, 没 法 




















重复 的 宏 定义 必须 一 模 一 样 。 例 如 这 相 


i #define OBJ LIKE (1 - 1) 
: #define OBJ LIKE /* comment */ 
> comment */ 





(1/* comment */-/* comment */ 1)/* 












































在 定义 的 前 后 多 些 空 日 (空格 、Tab、 
关系 ， 但 在 定义 之 中 有 空白 和 没有 空 

















注释 ) 没有 关系 ， 





FER 








多 些 空白 或 少 些 空白 也 没有 














4 重复 定义 是 不 允许 的 : 














白 被 认为 是 不 同 的 ， 





| #define OBJ LIKE (1 - 1) 
PT eerie OBO linn 4 iL) 





























Url 








如 果 需 要 


义 ， 例 如 : 





EE 新 定义 一 个 宏 ， 和 原来 的 定义 不 同 ， 














ieee: [= x is QU 


is 2 */ 


has no definition */ 





2.2. VJEXERUZC 


C995 | A. — Nr E inline, 




















He E 


很 常见 ， PUN include/linux/rwsem.h 

















数 (inline function) 。 


























这 种 用 法 在 内 核 代码 











: static inline void down read(struct rw semaphore *sem) 


i 


might sleep(); 
rwsemtrace(sem,"Entering down read"); 
. down read(sem); 
rwsemtrace(sem,"Leaving down read"); 























inli ne 关键 字 告 诉 编译 器 ， 这 个 函数 的 调用 要 尽 可 能 快 ， 可 以 当 普 通 
用 宏 展开 的 办 法 实现 。 我 们 做 个 实验 ，j 




















例 21.2. ALKA EL 















































的 函数 调用 实现 ， 也 可 以 





BEE GFL T: 


: inline int MAX(int a, 


E 
| return 


i) 
aiae all = 1 9 
: int max(int n) 


i { 


return 


Bl o2 dor "WE US 


i} 


ENTRÉE main(void) 


n 


max(9); 
return 0; 





TEGERE YE PRAM AA Ja BOL Si : 


: $ gcc main.c -g 
: $ objdump -dS a.out 





: int max(int n) 


P4 

: 8048369: 55 push %ebp 
804836a: 89 e5 mov %esp, Sebp 
804836c: 83 ec Oc sub SOxc, esp 

return n == ? a[0] : MAX(a[n], max(n-1)); 

804836f: 83 7d 08 00 cmpl $0x0,0x8 (Sebp) 
8048373: 75 0a jne 804837f <max+0x16> 
8048375: al c0 95 04 08 mov 0x80495c0,2eax 
804837a: 89 45 fc mov Seax, —0x4 (Sebp) 
804837d: eb 29 jmp 80483a8 <max+0x3f> 
804837f: 8b 45 08 mov 0x8 (Sebp) , eax 
8048382: 83 e8 01 sub SOx1, %eax 
8048385: 89 04 24 mov $eax, (Sesp) 
8048388: QS Cle iz deg ETE call 8048369 «max» 
804838d: ae) GI mov S$eax, %edx 
804838f: 8b 45 08 mov 0x8 ($ebp),$eax 

: 8048392: 8b 04 85 cO 95 04 08 mov 

: 0x80495c0(,$eax,4),$eax 

: 8048399: 89 54 24 04 mov sedx, 0x4 (Sesp) 

: 804839d: 89 04 24 mov $eax, (Sesp) 

: 80483a0: SB Or 让 让 省 让 rE call 8048344 <MAX> 

ies Q43 325: 89 45 fc mov $eax,-0x4($ebp) 

: 80483288: Gig. US EG mov -0x4 (%ebp) , seax 

P] 

















IN 








可 以 看 到 Max 是 作为 普通 函数 调用 的 。 如 果 指 定 优化 选项 编译 ， 然 后 反 汇 编 : 


| $ gcc main.c -g -O 
: $ objdump -dS a.out 























' int max (int n) 


: { 

|: 8048355: 55 push Sebp 
8048356: 89 e5 mov Sesp, sebp 
8048358: 53 push $ebx 
8048359: 83 ec 04 sub S0x4,%esp 
804835c: 8b 5d 08 mov 0x8 (Sebp) , sebx 

return n == ? a[0] : MAX(a[n], max(n-1)); 

804835f: 85 db test Sebx, sebx 
8048361: US 07 jne 804836a <max+0x15> 
8048363: al a0 95 04 08 mov 0x80495a0, Seax 
8048368: eb 18 jmp 8048382 <max+0x2d> 
804836a: 8d 43 ff lea -0x1 (Sebx) , Seax 
804836d: 89 04 24 mov $eax, (esp) 

: 8048370: e8 eO ff ff ff call 8048355 «max» 

: inline int MAX (int a, int b) 

bd 

| returna » b ? a : b; 
8048375: 8b 14 9d a0 95 04 08 mov 

: 0x80495a0 (, $ebx, 4) , $edx 
804837c: 39) CO cmp %edx, %eax 
804837e: 7d 02 jge 8048382 <max+0x2d> 


8048380: 89 dO mov Sedx, Seax 


iSite copay COR Gp NEU ue a Oo A 


E max (int n) 


B 

cercu a = 0? a DOTSUMAX Car mi), maai) y 

* 

: 8048382: 83 c4 04 add $0x4,%esp 

|: 8048385: Slo) pop Sebx 
8048386: 5d pop $ebp 
8048387: Ge ret 





























WABI, FA cal HS VH vax Phat, max PK ZR THAT AE Emax PAY, FU 
HOITI, max lax ES ZA IR RO E, AREE EL AE e 
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2.3. #. iHe FFA] AE 













































































在 函数 式 宏 定义 中 ，# 运 算 符 用 于 创建 字符 串 ，# 运 算 符 后 面 应 该 跟 一 个 形 参 (中间 可 以 有 空格 
或 Tab) ， 例 如: 
































i #define STR(s) 4 s 
i STR (hello world) 


















































用 cpp 命 令 预 处 理 之 后 是 "helle world"， 目 动用 "号 把 实 参 括 起 来 成 为 一 个 字符 串 ， 并 且 实 参 中 
的 连续 多 个 空白 字符 被 蔡 换 成 一 个 空格 。 



























































| #define STR(s) #s 
pues (STR (St rncmpa aby co\Od ape 0 


== 0) STR(: @\n), s); 






























































预 处 理 之 后 是 fputs ("strnemp (\"ab\\\"c\\0d\", \"abc\", '\\4\"") == 0" ": @\n", s);, 注 
意 如 果实 参 中 包含 字符 常量 或 字符 串 ， 则 安 展开 之 后 字符 串 的 界定 符 " 要 蔡 换 成 \"， 字 符 销 量 或 












































字符 串 中 的 \ 和 "字符 要 蔡 换 成 \\ 和 \"。 


在 安定 义 中 可 以 用 ## 运 算 符 把 前 后 两 个 预 处 理 Token 连 接 成 一 个 预 处 理 Token ， 和 +# 运 算 符 不 
同 ，## 运 算 符 不 仅 限 于 函数 式 宏 定 义 ， 变 量 式 宏和 定义 也 可 以 用 。 例 如 : 



































































































































i #define CONCAT(a, b) a##b 
; CONCAT (con, cat) 





























预 处 理 之 后 是 concat。 再 比如 ， 要 定义 一 个 宏 展开 成 两 个 # 写 ， 可 以 这 样 定义 : 








| #define HASH HASH # ## # 










































































I 间 的 ## 是 运算 符 ， 安 展开 时 前 后 两 个 # 号 被 这 个 运算 符 连 接 在 一 起 。 注 意 中 间 的 两 个 空格 是 不 
可 少 的 ， 如 果 写 成 4###， 会 被 划分 成 4# 和 ## 两 个 Token ， 而 根据 定义 ## 运 算 符 用 于 连接 前 后 两 个 
预 处 理 Token ， 不 能 出 现在 安定 义 的 开头 或 未 尾 ， 所 以 会 报错 。 


我 们 知道 printf 消 数 带 有 可 变 参 数 ， 函 数 式 宏 定义 也 可 以 带 可 变 参数 ， 同 样 是 在 参数 列表 
用 . . .表示 可 变 参 数 。 例 如 : 



































































































































: #define showlist(...) printf(# VA ARGS ) 
hene raport (toSt, oc) (sy ames 
: printf( VA ARGS )) 


: showlist (The first, second, and third items.); 
i report (x>y, "x is $d but y is $d", x, y); 























预 处 理 之 后 变 成 : 


i printf ("Phe first, second, and third dtems."); 
i ((x»y)?printf("x»y"): printf("x is $d but y is %d", x, y)); 









































在 安定 义 中 ， 可 变 参数 的 部 分 用 _va_aRes_ 表示， 实 参 中 对 应 .. .的 几 个 参数 可 以 看 成 一 个 参数 
FRA) 宏 定义 ! _ VA_ARGS。_ 所 在 的 地 方 。 


调用 函数 式 宏 定义 允许 传 空 参数 ， 这 一 点 和 函数 调用 不 同 ， 通 过 下 面 儿 个 例子 理解 空 参数 的 月 


法 。 




























































































| #define FOO() foo 
i FOO () 


























Y 























Lix 


预 处 理 之 后 变 成 foe。Foo 在 定义 时 不 市 参数 ， 在 调用 时 也 不 允许 传 参数 给 它 。 


| #define FOO(a) foo##a 
; FOO (bar) 
: FOO () 




















预 处 理 之 后 变 成 : 

















F00 在 定义 时 市 一 个 参数 ， 在 调用 时 必须 传 一 个 参数 给 它 ， 如 来 不 传 参 数 则 表示 传 了 一 个 空 参 

















| #define FOO(a, b, c) a##b##c 
i FOO (1,2,3) 


PASCO lle a) 
| FOO (1, , 3) 
i FOO(,;3) 




















预 处 理 之 后 变 成 : 


























空 参数 的 位 置 可 以 空 着 ， 但 必须 给 





Foo 在 定义 时 带 三 个 参数 ， 在 调用 时 也 必须 传 三 个 参数 给 
够 三 个 参数 ，Foo(1,2) 这 样 的 调用 是 错误 的 。 
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H 
\ 















































| &define FOO(a, ...) att VA INNGS 
: FOO (1) 
"OOo 2037) 




















预 处 理 之 后 变 成 : 
























































FOO (1) 这 个 ee 于 可 变 参 数 部 分 传 了 一 个 空 参 数 ，Foo(l,2,3,) 这 个 调用 相当 于 可 变 参 数 部 
分 传 了 三 个 参数 ， 个 是 空 参数 。 


gcc 有 一 种 扩展 语法 ， 如 果 料 运算 符 用 在 _va_aRcs 前 面 ， 除 了 起 连接 作用 之 外 还 有 特殊 的 含 
X, 人 的 : 







































































: #define DEBUGP (format, ...) printk (format, ## _ VA ARGS ) 




















printk 这 个 内 核 函数 相当 于 printf， 也 和 带 有 格式 化 字符 串 和 可 变 参数 ， 由 于 内 核 不 能 调用 1ipc 的 
函数 ， 所 以 男 外 实现 了 一 个 打印 函数 。 这 个 函数 式 宏 定 义 可 以 这 样 调用 : DEBUGP ("info no. 
sd"，1) 。 也 可 以 这 样 调 用 : prepuce ("info")。 后 者 相当 于 可 变 参 数 部 分 传 ] | o 但 展 
开 后 并 不 是 printk ("info",) ， 而 是 printk(ninfo") ， 当 _Vva_aARcs 是 空 参 数 时 ，## 运 算 符 把 它 前 
MN), r^ HZ" $i T o 


2.4. 宏 展 开 的 步 又 
以 上 举 的 宏 展开 的 例子 都 










































































































































































最 简单 的 ， 有 些 宏 展开 的 过 程 要 做 多 次 蔡 换 ， 例 如 : 





faa 
x 
i 

| 











i #define sh(x) printf("n" £x "-$d, or %d\n",n##x, alt [x]) 
' deginemsibaze) 26 
; sh (sub_z) 









































sh (sub z) 要 用 sh (x) 这 个 宏 定义 来 展开 ， 形 参 x 对 应 的 实 参 是 suo_z ， 替 换 过 程 如 下 : 

















1. #x 要 替换 成 "sub_z"。 




















2. n##x 要 蔡 换 成 nsub_z。 


3. 除了 带 #+ 和 ## 运 算 符 的 参数 之 外 ， 其 它 人 参数 在 蔡 换 之 前 要 对 实 参 本 身 做 充分 的 展开 ， 所 以 
应 该 先 把 sup_z 展 开 成 26 再 罕 换 到 a1t [x] 中 x 的 位 置 。 


4. 现在 展开 成 了 printf("n" "sub z" "-$d, or 8%d\n",nsub_z,alt[26]) ， 所 有 参数 都 替换 完 
mu 这 时 编译 天 会 再 扫描 一 壳 ， 再 找 出 可 以 展开 的 产 定义 来 展开 ， 假 设 nsub_z 或 alt 是 变 
量 式 宏 定义 ， 这 时 会 进一步 展开 。 


再 举 一 个 例子 : 









































































































































: #define x 3 

|! #define f(a) f(x * (a)) 
; #undef x 

| fdefine x 2 

i #define g f 

define t(D 


t(t(g) (0) + t) (1); 








展开 的 步骤 是 : 
1. 先 把 s 展 开 成 上 再 替换 到 #aefine t(a) aP, Hit (£(0) + €) (1);。 





























2. 根据 #faefine f(a) f(x * (a))， 得 到 t (f(x * (0) + €) (1);。 


3. 把 x 蔡 换 成 2， 得 到 tr (f(2 * (0)) + t) (1)7。 TER, dq 但 是 后 来 用 #ungef 
x 取消 了 x 的 定义 ， 义 重新 定义 x 为 2。 当 处 理 到 t tt (g) (0) + €) (1) ;这 一 行 代码 时 x 已 经 定 
义 成 2 了 ， 上 所 以 用 2 来 奉 换 。 还 要 注意 一 点 ， 现 在 得 到 的 ttf(2 * (0) + €) (1) ;中 仍然 


































































































有 f， 但 不 能 再 次 根据 #aefine f(a) f(x * (DFT, £(2 * (0)) 就 是 由 展开 f(o) 得 到 
的 ， 这 里 面 再 遇 到 上 就 不 展开 了 ， 这 样 规 定 可 以 避免 无 穷 展 开 〈 类 似 于 无 穷 递 归 ) ， 因 此 
我 们 可 以 放心 地 使 用 递归 定义， 例如 #define a a[0], #define a a.member 等 。 


4. 根据 fdaefine t(a) a, 最终 展开 成 f(2 * (0) + t(1);。 这 时 不 能 再 展开 t (1) 了 ， 因 为 这 
里 的 t 就 是 由 展开 t (f (2 * (0)) + t) 得 到 的 ， 所 以 不 能 再 展开 了 。 





3. 条 件 预 处 理 指示 
soil 第 21 章 预 处 理 EE 三 网 


3. 条 件 预 处 理 指示 


我 们 在 第 2.2 节 “ 头 文件 "中 见 过 Header Guard 的 用 法 : 




















i #ifndef HEADER FILENAME 
: #define HEADER FILENAME 
| /* body of header */ 

| endif 








条 件 预 处 理 指 示 也 常用 于 源 代码 的 配置 管理 ， 例 如 : 





























: #if MACHINE == 68000 

i imt P 

i #elif MACHINE == 8086 

| long x; 

i #else /* all others */ 

| #error UNKNOWN TARGET MACHINE 
i fendif 















































假设 这 段 程序 是 为 多 种 平台 编写 的 ， 在 68000 平 台 上 需要 定义 x 为 int 型 ， 在 8086 和 平台 上 需要 定 
义 x 为 1ong 型 ， 对 其 它 平台 暂 不 提供 支持 ， 就 可 以 月 条 件 预 处 理 指示 来 写 如 果 在 预 处 理 这 段 代 




























































































































































































但 之 前 ，MacHINE 被 定义 为 68000 ， 则 包含 intx; 这 上段 代码 ;否则 如 果 MmacHINE 被 定义 为 8086， 则 
Along x; 这 段 代码 ; 否则 os 或 老 定义 为 其 UH) , Bl terror UNKNOWN 
TARGET MAcHINE 这 段 代 码 ， 编 译 顺 遇 到 这 个 预 处 理 指示 就 报错 退出 ， 错误 信息 就 是 owxwom 











TARGET MACHINE o 


如 果 要 为 8086 平 台 编 译 这 段 代 码 ， 有 几 种 可 选 的 办 法 : 


1、 手 动 编辑 代码 ， 在 前 面 添 一 行 #define MACHINE 8086。 这 样 做 的 缺点 是 难以 管理 ， 如 果 这 个 
项 目 中 有 很 多 源 文 件 都 需要 定义 MacHINE ， 每 次 要 为 8086 平 台 编 译 就 得 把 这 些 定 义 全 部 改 
成 8086， 每 次 要 为 68000 平 台 编 译 就 得 把 这 些 定义 全 部 改 成 68000。 


2、 在 所 有 需要 配置 的 源 文 件 开头 包 含 一 个 头 文件 ， 在 头 文件 中 定义 faefine MACHINE 8086, 1X 
样 只 需要 改 一 个 头 文件 就 可 以 影响 所 有 包含 它 的 源 文件 。 通 常 这 个 头 文 件 由 配置 工具 生成 ， 比 
4 在 Linux 内 核 源 代码 的 目录 下 运行 make menuconfig 命 令 可 以 出 来 一 个 配置 菜单 ， 在 其 配置 的 
选项 会 目 动 转换 成 头 文件 incluae/linux/autoconf.h 中 的 安定 义 。 


举 一 个 具体 的 例子 ， 在 内 核 配 置 菜单 1 用 回 车 键 和 方向 键 进 井 入 pevice Drivers ---» Network 
device support, 然后 用 2 空格 键 选 Network device support (SE FRU ZEIT p ] 括 号 内 会 出 现 


一 个 * 号 ) ， 然 后 保存 退出 ， 会 生成 一 个 名 为 . config 的 隐藏 文件 ， ERARI: 






















































































































































































































































































pami 






















































































































































































| 4 Network device support 


: CONFIG NETDEVICES-y 

: # CONFIG DUMMY is not set 

i 4 CONFIG BONDING is not set 

: # CONFIG EQUALIZER is not set 
"4$ CONFIGLTUN is not set 





























然后 运行 make 命令 编译 内 核 ， 这 时 根据 . config MFA MAL X ff include/linux/autoconf.h, H 
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内 容 类 似 于 : 

















* Network device support 
pow 

i define CONFIG NETDEVICES 1 
‘ 4dundef CONFIG DUMMY 

: #undef CONFIG BONDING 

: fundef CONFIG EQUALIZER 

‘ #undef CONFIG TUN 
































上 面 的 代码 用 #unaef 确 保 取 消 一 些 宏 的 定义 ， 如 果 先 前 没有 定义 过 coNFIG_puMMY ， 用 #undef 
coNFIG_pUuMMY 取 消 它 的 定义 没有 任何 作用 ， 也 不 算 错 。 

































































include/1linux/autoconf.h 被 男 一 个 头 文件 rinclude/linux/config. n 所 包 包含 ， 通常 内 核 代 码 包含 
后 一 个 头 文件 ， 例如 net/core/sock.c: 



























ne Sock setsockopt(struct socket *sock, int level, int optname, 
char _ user *optval, int optlen) 


| #ifdef CONFIG NETDEVICES 
| case SO_BINDTODEVICE: 


| endif 





Sto ee mE 
;isdn ioctl(struct inode *inode, struct file *file, uint cmd, ulong 
: arg) 





i ifdef CONF IG_NETDEVICES 
: case IIOCNETGPN: 
: /* Get peer phone number of a 
P"connecbecd 
i * isdn network interface */ 
if (arg) { 
: if (copy from user(&phone, 
: argp, sizeof (Phone) ) ) 
return -EFAULT; 

| return 
: isdn net getpeer(&phone, argp); 
i } else 

return -EINVAL; 


| #ifdef CONFIG NETDEVICES 
: case IIOCNETAIF: 


: #endif /* CONFIG NETDEVICES */ 


这 样 ， 在 配置 菜单 


1。#ifdef 或 #if 可 





























以 像 上 面 的 

















NE 








! 所 做 的 配置 通过 
UREE, 





























3、 


用 scc 的 -p 选 项 定义 一 个 宏 Np 
的 命令 : 
选项 ， 和 第 2 种 方 LE tiu 法 在 头 文 伯 


类 似 这 


BEE SL 


B 




















二 条件 预 处 
但 预 处 理 指 示 通 rH 























里 最 终 决 定 了 哪些 代码 被 编译 到 内 核 
党 都 顶头 写 不 缩 进 ， 








为 了 区 分 符 套 的 层次 ， 可 























最 后 一 行 那样 ， 在 #engif 人 处 


个 宏 不 一 定 非 得 

















FE 代码 


1 用 #qefine 定 义 





用 注释 写 清楚 


它 结束 的 是 哪个 #if 或 #ifdef。 





























文件 











' 生 效 ， 第 3 种 方法 能 不 


eaue。 对 于 上 面 的 例子 ， 我 们 需 : 


时 在 名 6 节 


Eos 





"我 们 就 见 过 
定义 一 个 值 ， 可 以 写成 


























12 MACHINI 


























gcc -c -DMACHINE-8086 main.c。 这 种 办 法 需要 给 每 个 编译 命令 都 加 上 适当 的 





能 做 到 “只 





最 后 通过 下 面 的 例 





子 说 一 下 #if 后 面 的 表达 式 : 








kro O 




















VN 


一 次 到 处 生效 " 呢 ? 等 以 后 学 习 了 Makefilej 


次 宏 定 义 就 可 以 在 很 多 源 








就 有 办 法 


| #define VERSION 2 
DELI defined x 


y || VERSION « 


3 



























































































































































































































































首先 处 理 aefined 运 算 符 ，aefined 运 算 符 一 般 用 作 表 达 式 中 的 一 部 分 ， 如 果 单 独 使 用 ，#if 
defined x 相当 于 #ifqef x， 而 #if !definea x 相当 于 #ifngef x。 在 这 个 例子 中 ， 如 果 x 这 
个 宏 有 定义 ， 则 把 aefinea x 巷 换 为 1， 否 则 替换 为 0， 因 此 变 成 #if o || y || VERSION < 
85 
. 然后 把 有 和 定义 的 宏 展 开 ， 变 成 tif o || y |] 2 < 30 
把 没有 定义 的 安 蕉 换 成 0， 变 成 tif o || o || 2 < 3， 注意 ， 即 使 前 面 定 义 了 一 个 变量 名 
是 y， 在 这 一 步 也 还 是 替换 成 0， 因 为 #if 的 表达 式 必须 LEE RH ， 其 中 包含 的 名 字 只 
能 是 宏 定义 。 
. 把 得 到 的 表达 式 0 || o || 2 < 3 像 C 表 达 式 一 样 求 值 ， 求 值 的 结果 是 #if 1， 因 此 条 件 成 











4. 其 它 预 处 理 特 性 


BESTE 第 21 章 预 处 理 


4. 其 它 预 处 理 特性 


#pragma 预 处 理 指示 供 编 译 絮 实现 一 些 非 标 准 的 特性 ，C 标 准 没 有 规定 #4pragma 后 面 应 该 写 什 么 以 
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KIAH, Hanae ds 
Pear IH tpragna AED BEBOUE, ABARA NE. WR Sea TETAS 























Up 




















































































































































































































































































































己 规 定 。 有 的 编译 器 用 #pragma 定 义 一 些 特殊 功能 寄存 器 名 ， 有 的 编 
到 不 认识 的 pragma 指 





日 





示 则 忽略 它 ， 例如 gcc 的 #pragma 指 示 都 是 #4pragma GCC .. .这 种 形式 ， H 31 B1 Eas m TE UU] A 
这 些 指示 。 
C 标 准 规 定 了 几 个 特殊 的 宏 ， 在 不 同 的 地 方 使 用 可 以 自动 展开 成 不 同 的 值 ， 常 用 的 
有 _FILE _ 和 LINE , | ring 展开 为 当前 源 文件 的 文件 名 ， 是 一 个 字符 串 ，_zINE 展开 为 
当前 代码 行 的 行 号 ， 是 一 个 整数 。 这 两 个 安 在 源 代码 中 不 同 的 位 置 使 用 会 自动 取 不 同 的 值 ， 显 
然 不 是 用 #aefine 能 定义 得 出 来 的 ， 它 们 是 编译 需 内 建 的 特殊 的 安 。 在 打印 调试 信息 时 打印 这 两 
个 宏 可 以 给 开发 者 非常 有 用 的 提示 ， 例 如 在 第 6 节 “ 折 半 查 找 "我 们 看 到 assert 函 数 打 印 的 错误 
信息 就 有 _ FILE M LIne _ 的 值 。 现 在 我 们 自己 实现 这 个 assert 函 数 ， 以 理解 它 的 原理 。 这 个 
实现 出 自 [Standard C Library]: 
例 21.3. assert.h 的 一 种 实现 
| 
: #undef assert /* remove existing definition */ 
: #ifdef NDEBUG 
: #define assert (test) ( (void) 0) 
i telse /* NDEBUG not defined */ 
void _Assert (char *); 
/* macros */ 
#define STR(x) _VAL (x) 
#define _VAL(x) #x 
#define assert (test) ((test) ? (void)O \ 
: _Assert (__FILE Wa" _ SiR (shai) 
in rest) ) 
: #endif 
通过 这 个 例子 可 以 全 面 复习 本 章 所 讲 的 知识 。C 标 准 规定 assert 应 该 实现 为 安定 义 而 不 是 一 个 真 











正 的 函数 ， Jf Hassert (test) 这 个 表达 式 的 值 应 该 



































是 void 类 型 的 。 首先 用 #ungef assert 确 保 取 


消 前 面 对 assert 的 定义 ， 然 后 分 两 种 情况 : 如 果 定 义 了 NDEBUG， 那 么 assert (test) 直接 定义 成 一 





























个 aK 

Dvoid R 

AE ERT Ate Ai, GRAN BA Assert 函数 。 假 设 在 main 
j E GA 


用 assert (is sorted), HA FILE 是 字符 串 "main.e"， __LINE 












































EZ 
























































型 的 值 ， 什 么 也 不 做 ; 如 果 没 有 定义 pgBguec， 则 要 判断 测试 条 件 test 是 否 成 立 ， 如 果 
.c 文 件 的 第 


2353 #test AE E T 


33 行 调 











串 "is_sorted()"。 注 意 _sTR( LINE) 的 展开 过 程 : 首先 展开 成 _vaL (33) > 然后 进一步 展开 成 
字符 串 "33"。 这 样 ， 最 后 _assert 调 用 的 形式 是 _assert ("main.c" "um No geo" 

"is sorted()"), {E26 assert PKT] EE ER AE main.c:33 is sorted()"eo _Assert PI ZI 41] 
目 己 定义 的 ， 在 另 一 个 源 文 件 中 : 























i /* xassert.c _Assert function */ 
it nelude <stdio.h> 
: #include <stdlib.h> 


i void _Assert (char *mesg) 


d /* print assertion message and abort */ 
fputs (mesg, stderr); 

i fputs(" -- assertion failed\n", stderr); 

abort (); 

E Ii 
































注意 ， 在 头 文件 assert.n 1 自己 定义 的 内 部 使 用 的 标识 符 都 以 _ 线 开头 ， 例 
如 _sTR，_VAL，_Assert ， 因 为 我 们 在 模拟 C 标 准 库 的 实现 ， 在 第 3 全 “变量” 讲 过 ， 以 _ 线 开头 的 
标识 符 通 常 由 编译 器 和 C 语 言 库 使 用 ， 在 /usry/incluae 下 的 头 文件 中 你 可 以 看 到 大 量 _ 线 开头 的 
标识 符 。 另 外 一 个 问题 ， 为 什么 我 们 不 直接 在 assert 的 安定 义 中 调用 fputs 和 abort 呢 ?因为 调 
用 这 两 个 函数 需要 包含 staio.h 和 stalib.n，C 标 准 库 的 头 文件 应 该 是 相互 独立 的 ， 一 个 程序 只 
要 包含 assert .nh 就 应 该 能 使 用 assert， 而 不 应 该 再 依赖 于 别 的 头 文 件 。_Assert 中 的 fputs 问 标准 
错误 输出 打 纯 错误 信息 ，abort 异 常 终 止 当前 进程 ， 这 些 函 数 以 后 再 详细 讨论 。 




























































































































































































































































































现在 测试 一 下 我 们 的 assert 实 现 ， 把 assert.h 和 xassert.c 和 测试 代码 main.c 放 在 同一 个 目录 





i /* main.c */ 
ifainelude rasserne ny, 


ant main (void) 


E 


assert (2>3); 
return 0; 





















































注意 #include "assert.n" 要 用 "引号 而 不 要 用 <> 插 号 ， 以 保证 包含 的 是 我 们 自己 写 的 assert.n 而 
非 C 标 准 库 的 头 文件 。 然 后 编译 运行 : 























: $ gcc main.c xassert.c 

PS a/an out 

: main.c:6 2>3 -- assertion failed 
: Aborted 
































在 打印 调试 信息 时 除了 文件 名 和 和 行 号 之 外 还 可 以 打印 出 当前 函数 名 ，C993 引 入 一 个 特殊 的 标识 
fj. func. 支持 这 一 功能 。 这 个 标识 符 应 该 是 一 个 变量 名 而 不 是 宏 定义 ,不 属于 预 处 理 的 范 
E, BEIEN rre 4 | mise _ 类似， 所 以 放 在 一 起 讲 。 例 如 : 















































例 21.4. 特殊 标识 符 _ func__ 


: #include <stdio.h> 


i void myfunc (void) 


Ef 

printf ("ss\n", X func )J; 
E 

| int main (void) 

: { 

myfunc(); 

reac (MS ol, ne 
return 0; 

:] 





i$ gcc main.c 
S /a OVE 
: my func 


| main | 
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L 基本 规 Jiu 

g AH Ill 和 模式 规 Jiu 

3. AR E 

4. 目 动 处 理 > B A 
5. fit 用 的 make 命 行 3j 项 





1. 基本 规则 


第 22 3: Makefile Æti 





基本 规则 


除了 Hello World 这 种 极 简单 的 程序 之 外 ， 一 般 的 程序 都 是 由 多 个 源 文 件 编译 链接 而 成 的 ， 这 些 
源 文件 的 处 理 步骤 通 肖 ‘Makefile xt 生理 。Makefile 起 什么 作用 呢 ?我 们 移 看 一 个 例子 ， 这 个 例 
1 ; 题 ?改写 而 成 : 

















































































































i /* main.c */ 

i #include <stdio.h> 
nee Umaima Di 
| inolude "stackch" 
: #include "maze.h" 


evee point predecessor [MAX_ROW] [MAX COL] = { 

















(tail, =i}, i151]; (455-3 Jp { 1r ys { 15 Ly po 
dd—21 521) (egal p {= { iy 1}, { 15 ET 
dili) (45-15 (aly =l); { dL; Ly { i; 13 y 
dll) (455-15 (sly =} { il, Lyo { ip Lh ps 
dili) (455-15 (slp =i} 5 { 1L; Lie { ip 13 y 


bh 


‘void vicit (nt row, int Gol, struct point pre) 


E 

: grruet poime visit. point) = 4 Ow, CON 
maze[row] [col] = 2; 
predecessor[row] [col] = pre; 

push(visit point); 

if 


COTÉ main(void) 





X 
: Sime poine jo = t). 9 hz 
maze[p.row][p.col] = 2; 
push (p); 
while (!is_empty()) { 
p = pop(); 
if (p.row == MAX ROW - 1 /* goal */ 
&& p.col == MAX COL - 1) 
break; 
if (p.col-1 < MAX COL /* right */ 
&& maze[p.row][p.col-*1] == 0) 
waist (sew, IDoeelsd. p) 
if (p.row+l < MAX ROW /* down */ 
&& maze[p.rowtl][p.col] == 0) 
WaL Sane (jo BOWL, pocol, ])5 
if (p.col-1 >= 0 /* left */ 
&& maze[p.row] [p.col-1] == 0) 
visit (oo BOW, oo = 19) F 
if (p.row-1 >= 0 Ps wo 7) 
&& maze[p.row-1][p.col] == 0) 











VWALSINE (Do ROW— 1, eee. IE 
print_maze(); 


} 
if (p.row == MAX ROW - 1 && p.col == MAX COL - 1) { 
oriin E (UU (Axel, Sel) Wa, Drow DCL) 5 
while (predecessor[p.row][p.col].row != -1) { 
p = predecessor[p.row][p.col]; 
joweabonesE (UU (cl, Sch) ON CoL) y 
} 
} else 


De (We atelier) 


return 0; 






































我 们 把 堆栈 和 迷宫 的 代码 分 别 转移 到 模块 stack.c 和 maze.c main.c 包 含 它们 提供 的 头 文 


件 stack.h 和 maze.h。 

















i /* main.h */ 
i #ifndef MAIN H 
: #define MAIN H 


i typedef EET Xe. j]oxoageue i kawr Owy Colp J aeu p 


: #define MAX ROW 5 
: #define MAX COL 5 


| #endif 










































































在 main.h 中 定义 了 一 人 类 型 和 两 个 常量 ， main.c、stack.c 和 maze.c 都 要 月 到 这 些 定义 ， 都 要 包 
合 这 个 头 文件 。 


i /* stack.c */ 
Hi emelude Stack” 































i static item t stack[512]; 
E ararie imt CO9 = Of 


i void push(item t p) 
P d 
stack[top**] = p; 
3 


: item t pop(void) 
i { 
: return stack[--top]; 


m 


i int is empty (void) 
Pd 
1 return top == 0; 


i 


i /* stack.h */ 
| #ifndef STACK H 
: #define STACK H 


: #include "main.h" /* provides definition for item 七 */ 
‘extern void push (item t); 
: extern item t pop (void); 


i extern int is empty (void); 


i fendif 


























i ”中 的 堆栈 规定 死 了 只 能 放 cnar 型 数据 ， 现 在 我 们 做 进一步 
抽象 ， 堆 栈 中 放 item_ < 类 型 的 数据 item_t 可 以 定义 为 任意 类 型 ， 只 要 人 它 能 够 通过 函数 的 参数 和 
返回 值 传递 并 且 支 持 赋值 操作 就 行 。 这 也 是 一 种 避免 硬 编码 的 策略 ，stack.c 中 多 次 使 
用 itemt 类 型 ， 要 改变 它 的 定义 只 需 改 变 main.h 中 的 一 行 代码。 











































































































































































































i /* maze.c */ 
: include <stdio.h> 
: #include "maze.h" 


| int maze[MAX ROW][MAX COL] = { 
4 Op d, 0- O, O, 


0, 1, 0, 1, 0, 
0, 0, 0, 0, 0, 
0, 1, 1, 1, 0, 
0, 0, 0, 1, 0, 
















m 


i void print maze (void) 
Bf 
i aioe aly, JA 
for (i = 0; i « MAX ROW; i++) { 
for (j = 0; j < MAX COL; j++) 
printf("$d ", maze[i][j]); 
joule lavese ("ya") m 
} 


printf ( "大 大 大 大 大 大 大 大 大 Nmn) ， 


i /* maze.h */ 

i #ifndef MAZE H 

: #define MAZE_H 

i #include "main.h" /* provides defintion for MAX ROW and MAX COL */ 


i extern int maze[MAX ROW] [MAX COL]; 
: void print_maze (void); 


i #endif 






































maze.c HEN [maze MAA — Pr print_maze Ñ PR , 需要 在 头 文 件 maze.h UH, 以 便 提 供 















































给 main.c 使 用 ， 注意 print_maze 的 声明 可 以 不 加 extern， 而 maze 的 声明 必须 加 extern。 
这 些 源 文件 可 以 这 样 编译 : 


|: $ gcc main.c stack.c maze.c -o main 















































但 这 不 是 个 好 办 法 ， 如 果 编 译 之 后 又 对 maze.c 做 了 修改 ， 又 要 把 所 有 源 文 件 编译 一 遍 ， RU 

ffimain.c. stack. < 和 那些 头 文件 都 没有 修改 也 要 跟 着 重新 编译 。 一 个 大 型 的 软件 项 目 往往 由 上 
于 个 源 文 件 组 成 ， 全 部 编译 一 遍 需 要 几 个 小 时 ， 只 改 一 个 源 文 件 就 要 求全 部 重新 编译 肯定 是 不 
合理 的 。 


这 样 编译 也 许 更 好 一 些 : 







































































































































































| $ gcc -c main.c 
: $ gcc -c stack.c 
: $ gcc -c maze.c 
p gcc main.o stack.o maze.o -o main 
















































NN Oe CamMaZzene 
|: $ gcc main.o stack.o maze.o -o main 








2 
[us 


HLA Tale, ATER WAS EE, IRA a, REAT ENEE, WT 
能 有 一 个 忘 了 重新 编译 ， 结 果 编 译 完了 修改 没 生 效 ， 运 行 时 出 了 Bug 还 满 世界 找 原 因 呢 。 更 复杂 
的 问题 是 ， 假 如 我 改 了 main.h 怎 么 办 ? 所 有 包含 main.n 的 源 文件 都 需要 重新 编译 ， 我 得 挨个 找 哪 
些 源 文 件 包 含 了 main. h, 有 的 还 很 不 明显 ， 例如 stack. c 包 含 了 stack. h, 而 后 者 包含 了 main.h。 
可 见 手动 处 理 i 这 些 问题 非常 容易 出 错 ， 那 有 没有 自动 的 解决 办 法 呢 ? 有 ， 就 是 写 

个 waxkefile 文 件 和 源 代 码 放 在 同一 个 目录 下 : 














































































































































































































gcc main.o stack.o maze.o -o main 


: main.o: main.c main.h stack.h maze.h 
: GES =G eame 


: stack.o: stack.c stack.h main.h 
i Gece =€ STAC C 


' maze.o: maze.c maze.h main.h 
: gcc -c maze.c 








然后 在 这 个 目录 下 运行 make 编译 : 





是 gcc =e Westin 

GC Cun Mee 

i gcc -c maze.c 

: gcc main.o stack.o maze.o -o main 














make Hp 命令 会 = 动 读 取 当 前 目录 下 FF 的 Makefile 文 件 BH， 完成 相应 的 编译 步骤 。 Makefile 由 一 组 规 
Jj (Rule) 组 成 ， 每 条 规则 的 格式 是 : 



































! target ... : prerequisites ... 
i command1 


command2 





; main: main.o stack.o maze.o 
' gcc main.o stack.o maze.o -o main 





main 是 这 条 规则 的 目标 (Target) ， main.o* stack. o 和 maze . 条 规则 的 条 < 件 
(Prerequisite) 。 目 标 和 条 件 之 间 的 关系 是 ， 欲 更 新 目标 ， 必须 首先 更 新 它 的 所 有 条 件 ; 所 有 
条 件 中 只 要 有 一 个 条 件 被 更 新 了 ， 目 标 也 必须 随 之 被 更 新 。 所 谓 " 更 新 "就 是 执行 一 澳 规 则 中 的 全 
SHK, 命令 列表 中 的 每 条 命令 必须 以 一 个 Tab 开 头 注意 不 能 是 空格 ，Makefile 的 格式 不 
像 C 语 言 的 缩 进 那么 随意 ， 对 于 Makefile 中 的 每 个 以 Tab 开 头 的 命令 ，make 会 创建 一 个 Shell 进 程 
去 执行 它 。 


对 于 上 面 这 个 例子 ，make 执 行 如 下 步骤 : 


1. 尝试 更 新 Makefile 中 第 一 条 规则 的 目标 main ， 第 一 条 规则 的 目标 称 为 缺 省 目标 ， 只 要 缺 省 
目标 更 新 了 就 算 完成 任务 了 ， 其 它 工作 都 是 为 这 个 目的 而 做 的 。 由 于 我 们 是 第 一 次 编 
译 ，main 文 件 还 没 生 成 ， m 但 规则 说 必须 先 更 新 

了 main . ov Stack. o 和 maze. o 这 条 件 ， 然后 才能 更 新 main。 


















































































































































































































































































































































































































































2. 所 以 make 会 进一步 查找 以 这 三 个 条 件 为 目标 的 规则 ， 这 些 目标 文件 也 没有 生成 ， 也 需要 更 
新 , 所 以 执行 相应 的 命令 (gcc -c main.c^ gcc -c stack.c 和 acc -G maze.c) E: E 
们 。 












































E AX. FE 
3. 最 后 执行 gce main.o stack.o maze.o -o main #fmaino 


如 果 没 有 做 任何 改动 ， 再 次 运行 make : 





‘Make: main" xs up to date. 









































make 会 提示 缺 省 目标 已 经 是 最 新 的 了 ， 不 需要 执行 任何 命令 更 新 它 。 再 做 个 实验 ， 如 果 修 改 
了 maze.h (比如 加 个 无 关 痛 痒 的 空格 ) 再 运行 make : 

















: $ make 

t gC =e MALE 

l oee =e maza C 

Ege main.o stack.o maze.o -o main 




















新 编译 ， 不 受 影响 的 源 文 件 则 不 重新 编译 ， 这 是 怎么 做 





H 
umi 








make & El BYTE ABLE S7 Up BP C C 
到 的 呢 ? 
1. make 仍 然 尝 试 更 新 缺 省 目标 ， 首 先 检 查 目 标 main 是 否 需 要 更 新 ， 这 就 要 检查 三 个 条 

件 nain.o、stack.o 和 maze.o 是 否 需 要 更 新 。 

2. make 会 进一步 查找 以 这 三 个 条 件 为 目标 的 规则 ， 然后 发 现 main.o 和 maze.o 需 要 更 新 ， 因 为 
它们 都 有 一 个 条 件 是 maze.h， 而 这 个 文件 的 修改 时 间 比 main.o 和 maze.o 晚 ， 所 以 执行 相应 
的 命令 更 新 main.o 和 maze.o。 

3. 既然 main 的 三 个 条 件 中 有 两 个 被 更 新 过 J 那么 main 也 需要 更 新 ， 所 以 执行 命令 gcc 


x. EH SE : 
main.o stack.o maze.o -o main maine 

























































































































































































































































































解 。 如 果 一 条 规则 的 目标 属于 以 下 情况 





naa 

















现在 总 结 一 下 Makefile 的 规则 ， 请 读者 结合 上 面 的 例子 到 
之 一 ， 就 称 为 需要 更 新 : 


。 目标 没有 生成 。 

。 革 个 条 件 需要 更 新 。 

。 某 个 条 件 的 修改 时 间 比 目标 晚 。 
在 一 条 规则 被 执行 之 前 ， 规 则 的 条 件 可 能 处 于 以 下 三 种 状态 之 一 : 

。 需要 更 新 。 能 够 找到 以 该 条 件 为 目标 的 规则 ， 并 且 该 规则 


。 不 需要 更 新 。 能 够 找到 以 该 条 件 为 目标 的 规则 ， 但 是 该 规则 中 目标 不 需要 更 新 ; 或 者 不 能 
找到 以 该 条 件 为 目标 的 规则 ， 并 且 该 条 件 已 经 生成 。 


。 错误 。 不 能 找到 以 该 条 件 为 目标 的 规则 ， 并 且 该 条 件 没 有 生成 。 
执行 一 条 规则 A 的 步骤 如 下 : 
1. 检查 它 的 每 个 条 件 P: 


。 如 果 P 需 要 更 新 ， 就 执行 以 P 为 目标 的 规则 B。 之 后 ， 无 论 是 否 生成 文件 P， 都 认 
为 P 已 被 更 新 。 


。 如 果 找 不 到 规则 B， 并 且 文 件 P 已 存在 ， 表 示 P 不 需要 更 新 。 
。 如 果 找 不 到 规则 B， 并 且 文 件 P 不 存在 ， 则 报错 退出 。 


2. 在 检查 完 规则 A 的 所 有 条 件 后 ， 检 查 它 的 目标 T， 如 果 属 
列表 : 


。 文 件 T 不 存在 。 
。 文 件 T 存 在 ， 但 是 某 个 条 件 的 修改 时 间 比 它 晚 。 


























































































































pat 



























































目标 需要 更 新 。 
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IJ 























情况 之 一 ， 就 执行 它 的 命令 


E 
m 
NE 
本 
uj 






















































































e 某 个 条 件 P 已 被 更 新 (并 不 一 定 生成 文件 P) 。 


通常 Makefile 都 会 有 一 个 clean 规 则 ， 用 于 清除 编译 过 程 中 产生 的 二 进 制 文件 ， 保 留 源 文 件 : 



























































































@echo "cleanning project" 
-rm main *.o 
@echo "clean completed" 










i$ make clean 
‘ cleanning project 
rm main *.0 

: clean completed 









































如 果 Emake 的 命令 行 1 指定 个 目标 (例如 clean) 则 更 新 这 个 目标 ， 如 果 不 指 定 目标 则 更 
新 Makefile 中 第 一 条 规则 的 目标 (AHER) 。 


和 前 面 介绍 的 规则 不 同 ，ciean 目 标 不 依赖 于 任何 条 件 ， 并 且 执 行 它 的 命令 列表 不 会 生 

成 clean 这 个 文件 ， 刚 才 说 过 ， 只 要 执行 了 命令 列表 就 算 更 新 了 目标 ， 即 使 目标 并 没有 生成 也 

算 。 在 这 个 例子 还 演示 了 命令 前 面 加 e 和 -字符 的 效果 : 如 果 make 执 行 的 命令 前 面 加 了 e 字 符 ， 则 
不 显示 命令 本 身 而 只 显示 它 的 结果 ; 通常 nake 执 行 的 命令 如 果 出 错 ( 该 命令 的 退出 状态 非 0) 就 
立刻 终止 ， 不 再 执行 后 续 命 令 ， 但 如 果 命令 前 面 加 了 -号 ， 即 使 这 条 命令 出 错 ，make 也 会 继续 执 
行 后 续 命令 。 通常 rm 命令 和 mxkair 命 令 前 面 要 加 -号 ， 因为 rm 要 删除 的 文件 可 能 不 存在 ， mkdir 
创建 的 目录 可 能 已 存在 ， 这 两 个 命令 都 有 可 能 出 错 ， 但 这 种 错误 是 应 该 忽略 的 。 例 如 上 面 已 经 
执行 过 一 所 make clean, 再 执行 遍 就 没有 文件 可 删 了 ， 这 时 rm 会 报错 ， 但 make 忽 略 这 一 错 
ÎR, 继续 执行 后 面 的 echo 命令 : 


































































































































































































































































































































































































: $ make clean 

! cleanning project 

; rm main *.o 

: rm: cannot remove ^main': No such file or directory 
: rm: cannot remove ^*.0': No such file or directory 
: make: [clean] Error 1 (ignored) 

: clean completed 



































还 有 一 个 问题 ， 如 果 





LIE 


rt 


有 何不 同 。 这 








No 


读者 可 以 把 命令 前 面 的 e 和 -去 掉 再 试 试 ， 对 比 一 下 结 
前 目录 下 存在 一 个 文件 叫 clean 会 怎么 样 呢 ? 








Lu 











: $ touch clean 
: $ make clean 
: make: ^clean' is up to date. 






































如 果 存 在 clean 这 个 文件 ， clean 目 标 又 不 依赖 于 任何 条 件 ， make 就 认为 它 不 需要 更 新 了 。 而 我 
们 希望 把 clean 当 作 一 个 特殊 的 名 字 使 用 ， 不 管 它 存在 不 存在 都 要 更 新 ， 可 以 添 一 条 特殊 规则 ， 
把 clean 声 明 为 一 个 伪 目 标 : 













































































; .PHONY: clean 


























这 条 规则 没有 命令 列表 。 类 似 .PHoNy 这 种 make 内 建 的 特殊 目标 还 有 很 多 ， 各 有 不 同 的 用 途 ， 详 
见 [GNUmakel]。 在 C 语 言 中 要 求 变量 和 函数 先 声 明 后 使 用 ， 而 Makefile 不 太一 样 ， 这 条 规则 写 
在 clean: 规 则 的 后 面 也 行 ， 也 能 起 到 声明 clean 是 伪 目 标的 作用 : 




































































@echo "cleanning project" 


-rm main *.o 
@echo "clean completed" 


: PHONY: clean 





p 


4 然 写 在 前 面 也 行 o gcc 处 理 一 个 C 程 序 分 为 预 处 理 和 编译 两 个 阶段 " 类 似 地 , make 处 
理 Makefile 的 过 程 也 分 为 两 个 阶段 : 


1. 首先 从 前 到 后 读 取 所 有 规则 ， 建 立 起 一 个 完整 的 依赖 关系 图 ， 例 如 : 


l 


clean 


























图 22.1. Makefile 的 依赖 关系 图 





stack.h main.h maze.h 








2. 然后 从 缺 省 目标 或 者 命令 行 指定 的 目标 开始 ， 根 据 依 赖 关 系 图 选择 适当 的 规则 执行 ， 执 
行 Makefile 中 的 规则 和 执行 C 代 码 不 一 样 ， 并 不 是 从 前 到 后 按 顺 序 执行 ， 也 不 是 所 有 规则 
都 要 执行 一 遍 ， 例 如 make 缺 省 目标 时 不 会 更 新 clean 目 标 ， 因 为 从 上 图 可 以 看 出 ， 它 跟 缺 
省 目标 没有 任何 依赖 关系 。 


clean 目 标 是 一 个 约定 俗 成 的 名 字 ， 在 所 有 软件 项 目的 Makefile 中 都 表示 清除 编译 生成 的 文件 ， 
类 似 这 样 的 约定 俗 成 的 目标 名 字 有 : 


e all， 执 行 主 要 的 编译 工作 ， 通 常用 作 缺 省 目标 。 


install ， 执 行 编译 后 的 安装 工作 ， 把 可 执行 文件 、 配 置 文件 、 文 档 等 分 别 拷 到 不 同 的 安 


装 H 录 。 
clean， 删 除 编译 生成 的 二 进 制 文件 。 


e distclean， 不 仅 删除 编译 生成 的 二 进 制 文件 ， 也 删除 其 它 生 成 的 文件 ， 例 如 配置 文件 和 
各 式 转 换 后 的 文档 5 执行 make dist clean 之 后 应 该 清除 所 有 这 些 文件 > 只 留 下 源 文件 o 























































































































































































































> 
































[31] 只 要 符合 本 章 所 描述 的 语法 的 文件 我 们 都 叫 它 Makefile ， 而 它 的 文件 名 则 不 一 定 

是 Makefile。 事 实 上 ， 执 行 nake 命 令 时 ， 是 按照 enumakefile、makefile、Makefile 的 顺序 找到 
第 一 个 存在 的 文件 并 执行 它 ， 不 过 还 是 建议 使 用 makefile 做 文件 名 。 除 了 GNU make, A 

些 UNIX 系 统 的 maxke 命 令 不 是 GNU make ， 不 会 查找 chumakefile 这 个 文件 名 ， 如 果 你 写 

的 Makefile tJ GNU make 的 特殊 语法 > 可 以 起 名 为 GNUmakefile 否则 不 建议 用 这 个 文件 名 o 

































































Bed 下 三 页 


第 22 章 Makefile 基 础 2. 隐 含 规则 和 模式 规则 





2. 隐 合 规则 和 模式 规则 





第 22 = Makefile 基 础 


2. 隐 含 规则 和 模式 规则 


上 一 节 的 Makefile 写 得 中 凡 


























山中 矩 ， 比 较 演 琐 ， 是 为 了 讲 清楚 基本 概念 ， 其 实 Makefile 有 很 多 灵活 










































































的 写法 ， 可 以 写 得 更 简 洗 ， 同 时 减少 出 错 的 可 能 。 本 市 我 们 来 看 看 这 样 一 个 例子 还 有 哪些 改进 














的 余地 。 











一 个 目标 依赖 的 所 有 条 件 不 一 定 非得 写 在 一 条 规则 中 ， 也 可 以 拆 开 写 ， 例 如 : 








就 相当 了 





imain.o: main.h stack.h maze.h 


: main.o: main.c 
: gcc -c main.c 








:main.o: main.c main.h stack.h maze.h 
i gcc -c main.c 










































































如 果 一 个 目标 拆 开 写 多 条 规则 ， 其 中 只 有 一 条 规则 允许 有 命令 列表 ， 其 它 规则 应 该 没有 命令 列 
表 ， 和 否则 make 会 报警 告 并 且 采 用 最 后 一 条 规则 的 命令 列表 。 





这 样 我 们 的 例子 可 以 改写 成 : 








:main: main.o stack.o maze.o 
| gcc main.o stack.o maze.o -o main 


' main.o: main.h stack.h maze.h 
|! stack.o: stack.h main.h 
: maze.o: maze.h main.h 


! main.o: main.c 
: OO x mama 


: stack.o: stack.c 
; Gee -e Biel. 


: maze.o: maze.c 
i gcc -c maze.c 


: Clean: 
: = duele ** 6 


: .PHONY: clean 
































这 不 是 比 原 来 更 索 瑞 了 吗 ? 现 在 可 以 把 提出 来 的 三 条 规则 删 去 ， 写 成 : 








: main: main.o stack.o maze.o 
1 gcc main.o stack.o maze.o -o main 


: main.o: main.h stack.h maze.h 
: Stack.o: stack.h main.h 
: maze.o: maze.h main.h 


: clean: 


ny Main *.0 


: PHONY: clean 
































这 就 比 原来 简单 多 了 。 可 是 现在 main.o、 stack.o 利 maze.o 这 三 个 日 标 连 编译 命令 都 没有 了 ， 起 
么 编译 的 呢 ? 试 试看 : 











$ make 
D (ex eo O main.o marn. C 
i cc -c -o stack.o stack.c 
Noc -c -o maze.o maze.c 


: gcc main.o stack.o maze.o -o main 

















现在 解释 一 下 前 三 条 编译 命令 是 怎么 来 。 如 果 一 个 目标 在 Makefile 中 的 所 有 规则 都 没有 命令 列 








表 ，make 会 尝试 在 内 建 的 隐 含 规则 (Implicit Rule) 数据 库 












































查找 适用 的 规则 。make 的 隐 含 规则 




































































数据 库 可 以 用 make -p 命 令 打印 ， 打 印 出 来 的 格式 也 是 Makefile 的 格式 ， 包 括 很 多 变量 和 规则 ， 
其 中 和 我 们 这 个 例子 有 关 的 隐 含 规则 有 : 




















SIEGE quiste 
; OUTPUT OPTION = -o $e 


| 4 default 
; CC = cc 


:# default 
: COMPILE.c = $(CC) $ (CFLAGS) $ (CPPFLAGS) $(TARGET_ARCH) -c 


o 


eo 
: 4 commands to execute (built-in): 


$(COMPILE.c) S$(OUTPUT OPTION) $< 


















































# 号 在 Makefile 中 表示 单行 注释 ， 就 像 C 语 言 的 // 注 释 一 样 。cc 是 一 个 Makefile 变 量 ， 用 cc = 


cc 定义 和 赋值 ， 用 scc) 取 它 的 值 ， 其 值 应 该 是 ec。Makefile 变 量 像 C 的 宏 定义 一 样 ， 代 表 一 日 


PS fe 


FN 





外 一 种 C 编 译 器 。 






































uo 










































































在 取 值 的 地 方 展开 。cc 是 一 个 符号 链接 ， 通 常 指 癌 gcc ， 在 有 些 UNIX 系 统 上 可 能 指向 另 

















:$ which cc 

| /usr/bin/cc 

v5 ls =l 7nsr/bin/cc 

i lrwxrwxrwx 1 root root 20 2008-07-04 05:59 /usr/bin/ce -> 

| /etc/alternatives/cc 

:$ ls -1 /etc/alternatives/cc 

i lrwxrwxrwx 1 root root 12 2008-11-01 09:10 /etc/alternatives/cc - 
; > /usr/bin/gee 











cFLAGS 这 个 变量 没有 定义 ，$ (crFLAGS) EIH E&R, cppriacsf#iltarcet_arcHth eu. iX 





























样 s (COMPILE.c) 展开 应 该 是 cc 空 空 空 -ce， 去 挥 “ 空 "得 到 ce -c， 注 意 中 间 留 下 4 个 空格 ， 所 















































.c 规 则 的 命令 $ (COMPILE.c) $(OUTPUT_OPTION) $< 展开 之 后 是 cc -c -o se s<, FEM 





C 
的 编译 命令 已 经 很 接近 了 。 


se 和 $< 是 两 个 特殊 的 变量 ，$e 的 取 值 为 规则 









































的 目标 ，s$< 的 取 值 为 规则 中 的 第 一 个 条 件 。s.o: 


















































s.c 是 一 种 特殊 的 规则 ， 称 为 模式 规则 (Pattern Rule) 。 现 在 回顾 一 下 整个 过 程 ， 在 我 们 
的 Makefile IPAmain.o 为 目标 的 规则 都 没有 命令 列表 , 所 以 make 会 查找 隐 含 规则 ， 发 现 隐 含 规则 










































































' 有 这 样 一 条 模式 规则 适用 ，main.o 符 合 $.o 的 模式 ， 现 在 就 代表 main ( 称 为 main.o 这 个 名 字 
的 Stem) ， 再 替换 到 s*.c< 中 就 是 main.c。 所 以 这 条 模式 规则 相当 于 : 























imain.o: main.c 
: ce —(e =6) AiO ANE 












































随后 ， 在 处 理 stack.o 目 标 时 又 用 到 这 条 模式 规则 ， 这 时 又 相当 于 : 


; stack.o: stack.c 
ee -0 =0 Ertradk -© Ss ce e e: 









































maze.o 也 同样 处 理 。 这 三 条 规则 可 以 由 make 的 隐 含 规则 推导 出 来 ， 所 以 不 必 写 在 Makefile 中 。 


先前 我 们 写 Makefile 都 是 以 目标 为 中 心 ， 一 个 目标 依赖 于 硅 干 条 件 ， 现 在 换个 角度 ， 以 条 件 为 中 
心 ，Makefile 还 可 以 这 么 写 










































































:main: main.o stack.o maze.o 
i gcc main.o stack.o maze.o -o main 


: main.o stack.o maze.o: main.h 


| main.o maze.o: maze.h 
|! main.o stack.o: stack.h 


-rm main *.o 


: .PHONY: clean 


























我 们 知道 ， 写 规则 的 目的 是 让 make 建 立 依赖 关系 图 ， 不 管 怎么 写 ， 只 要 把 所 有 的 依赖 关系 都 描 
述 清楚 了 就 行 。 对 于 多 目标 的 规则 ， make 会 拆 成 几 条 单 目标 的 规则 来 处 理 ， 例如 








e 




































































| targetl target2: prerequisitel prerequisite2 
command $&lt; -o $@ 











这 样 一 条 规则 相当 于 : 





| targetl: prerequisitel prerequisite2 
: command prerequisitel -o targetl 


| target2: prerequisitel prerequisite2 
H command prerequisitel -o target2 














注意 两 条 规则 的 命令 列表 是 一 样 的 ， 但 se 的 取 值 不 同 。 
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一 刷 我 们 详细 看 看 Makefile 中 关于 变量 的 语法 规则 。 移 看 一 个 简单 的 例子 : 











foo = S(bar) 
bar = Huh? 
all 


@echo $ (foo) 























我 们 执行 nake 将 会 打出 Hun?。 当 make 读 到 foo = $ (bar) 时 ， 确定 f0o 的 值 是 $ ( bar) 但 并 不 立即 
展开 $ (bar) ， 然 后 读 到 bar = Huh?, Wine HOE 是 Hun?， 然 后 在 执行 规则 a11: 的 命令 列表 时 才 
mz 展开 s (foo) ， 得 到 s (bar), 再 展开 s$ (bar) , (Elica? « 因此 ， 昌 然 bar 的 定义 写 在 foo 之 

后 ，$ (foo) 展开 还 是 能 够 取 到 s (bar) 的 值 。 


这 种 特性 有 好 处 也 有 坏处 。 好 处 是 我 们 可 以 把 变量 的 值 推迟 到 后 面 定义 ， 例 如 : 





































































































‘main.o: main.c 
: $(CC) S(CFLAGS) S(CPPFLAGS) -c $< 


Kee = gcc 
: CFLAGS = -0 -g 
: CPPFLAGS = -Iinclude 




















编译 命令 可 以 展开 成 gcc -0 -g -Iinclude -c main.c。 通 党 把 crLacs 定 义 成 一 些 编译 选项 ， 例 
如 -o、-g 等 ， 而 把 cpPFLacs 定 义 成 一 些 预 处 理 选 项 ， 例 如 -p、-I 等 。 用 -号 定义 变量 的 延迟 展开 
特性 也 有 坏处 ， 就 是 有 可 能 写 出 无 穷 递归 的 定义 ， Poras = $(CFLAGS) -0， 或 者 : 













































































当然 ，make 有 能 力 检测 出 这 样 的 错误 而 不 会 陷入 死 循环 。 有 时 候 我 们 希望 nake 在 遇 到 变量 定义 
时 立即 展开 ， 可 以 用 := 运算 符 ， 例 如 : 
























































px ges IOS 
ay = $(x) bar 
i all 


@echo "-S(y)- 
























































当 make 读 到 y := $ (x) bar xe XH], 立即 把 s (x) 展开 ， 使 变量 y 的 取信 是 foo bar, 如 果 把 这 两 行 
WAIK: 












































那么 当 make 读 到 y := $ (x) bar 时 ， x 还 没有 定义 ， 展开 为 空 X(H, 所 以 y 的 取 值 是 bar, 注 
意 bar 前 面 有 个 空格 。 一 个 变量 的 定义 从 = 后 面 的 第 一 个 非 空白 字符 开始 (Ms (x) 的 开始 ) ， 包 
括 后 面 的 所 有 字符 ， 直 到 注释 或 换行 之 前 结束 。 如 果 要 定义 一 个 变量 的 值 是 一 个 空格 ， 可 以 这 





































































































Lie 
THE 





nudes E Tames 
i space s= $(nullstring) # end of the line 



































nullstring 的 值 为 空 ，space 的 值 是 一 个 空格 ， 后 面 写 个 注释 是 为 了 增加 可 读 性 ， 如 果 不 写 注释 
就 换行 ， 则 很 难看 出 $ (nullstring) 后 面 有 个 空格 。 


还 有 一 个 比较 有 用 的 赋值 运算 符 是 ?=， 例如 foo ?= $ (bar) 的 意思 是 : 如 果 foo 没 有 定义 过 ， 那 
么 ?= 相当 于 =， 和 定义 foo 的 值 是 s (bar) ， 但 不 立即 展开 ; 如 果 先 前 已 经 定义 了 foo， 则 什么 也 不 
做 ， 不 会 给 foo 重 新 赋值 。 





















































































































































‘ objects = main.o 
objects += $ (foo) 
: foo = foo.o bar.o 





















































object AE 日 = 和 定义 的 ， += 仍 然 保 持 = 的 特性 ， objects 的 值 是 main.o $ (foo) (注意 $ (£00) 前 面 自动 
添 一 个 空格 ) 3 但 不 立即 展开 ， 对 到 后 面 需要 展开 $s (objects) 时 会 展开 成 main.o foo.o bar.oo 







































































"obgecbs <= Maina 
MOB ISCES +=. Oboe) 
: foo = foo.o bar.o 



































object xe H:-xE SCAN, += 保 持 := 的 特性 ， objects 的 值 是 mnain.o $(foo), 立即 展开 得 到 main.o 
(这 时 foo 还 没 定义 ) ， 注 意 main.o 后 面 的 空格 仍 保留 。 


如 果 变 量 还 没有 定义 过 就 直接 用 += 赋 值 ， 那 么 += 相 当 于 =。 


上 一 市 我 们 用 到 了 特殊 变量 se 和 s<， 这 两 个 变量 的 特点 是 不 逢 要 给 它们 赋值 ， 在 不 同 的 上 下 文 
' 它 们 自动 取 不 同 的 值 。 常 用 的 特殊 变量 有 : 


。 $e ， 表 示 规 则 中 的 目标 。 

。 $<， 表 示 规 则 中 的 第 一 个 条 件 

e $?， 表 示 规 则 中 所 有 比 目 标 新 的 条 件 ， 组 成 一 个 列表 ， 以 空格 分 隔 。 

e $s^， 表 示 规 则 中 的 所 有 条 件 ， 组 成 一 个 列表 ， 以 空格 分 隔 。 
例如 前 面 写 过 的 这 条 规则 : 


































































































































































































o 







































































: main: main.o stack.o maze.o 
i gcc main.o stack.o maze.o -o main 








: main: main.o stack.o maze.o 
: Gee $^ —g. SE 


















































这 样 即 使 以 后 又 往 条 件 里 添加 了 新 的 目标 文件 ， 编 译 命 令 也 不 需要 修改 ， 减 少 了 出 错 的 可 能 。 



































$? 变 量 也 很 有 用 ， 有 了 时候 希 望 只 对 更 新 过 的 条 件 进行 操作 ， 例 如 有 一 个 库 文 件 1ibsome .a 依赖 于 


几 个 目标 文件 : 














| libsome. a: foo.o bar.o lose.o win.o 
: ar r libsome.a $? 
ranlib libsome.a 




































































这 样 ， 只 有 更 新 过 的 目标 文件 才 需 要 重新 打包 到 1ipsome.a 中 ， 没 更 新 过 的 目标 文件 原本 已 经 





























在 libsome.a 中 了 ， 不 必 重 新 打包 。 

















在 ES 我 们 看 到 make 的 隐 含 规则 数据 库 


























AR 























ARFLAGS 























AS 





CREAF, HME Aas. 
ASFLAGS 

汇编 器 的 选项 ， 没 有 定义 。 
CC 





C 编 译 器 的 名 字 ， 缺 省 值 是 cc。 
CFLAGS 

C 编 译 需 的 选项 ， 没 有 定义 。 
CXX 

C++ 编译 圳 的 名 字 ， 缺 省 值 是 s++。 
CXXFLAGS 

C++ 编译 器 的 选项 ， 没 有 定义 。 








CPP 








C 预 处 理 需 的 名 字 ， 缺 省 值 是 s(cc) 








CPPFLAGS 
C 预 处 理 需 的 选项 ， 没 有 定义 。 








LD 





链接 需 的 名 字 ， 缺 省 值 是 la。 
LDFLAGS 




















用 到 了 很 多 变量 ， 有 些 变量 没有 定义 ( 例 














如 crraes) ， 有 些 变量 定义 了 缺 省 值 (例如 cc) ， 我 们 写 Makefile 时 可 以 重新 定义 这 些 变量 的 
H, 也 可 以 在 缺 省 值 的 基础 上 追加 。 以 下 列举 一 些 说 用 的 变量 ， 请 读者 体会 其 中 的 规律 。 

































































静态 库 打包 命 令 的 名 字 ， 缺 省 值 是 ar。 


静态 库 打 包 命 令 的 选项 ， 缺 省 值 是 rv。 


-Eo 


链接 如 的 选项 ， 没 有 定义 。 
TARGET_ARCH 

和 目标 平台 相关 的 命令 行 选项 ， 没 有 定义 。 
OUTPUT_OPTION 

输出 的 命令 行 选项 ， 缺 省 值 是 -。se。 


LINK.o 






































把 .文件 链接 在 一 起 的 命令 行 ， 缺 省 值 是 s (cc) S(LDFLAGS) $(TARGET_ARCH) o 
LINK.c 
































把 .< 文件 链接 在 一 起 的 命令 行 ， 缺 省 值 是 s (cc) S(CFLAGS) $(CPPFLAGS) $ (LDFLAGS) 
$ (TARGET_ARCH) o 





LINK.cc 




















把 .cc 文件 (C++ 源 文件 ) 链接 在 一 起 的 命令 行 ， 缺 省 值 是 s (CXX) $ (CXXFLAGS) 


$ (CPPFLAGS) $(LDFLAGS) $(TARGET_ARCH) 。 

















COMPILE.c 

















编译 .< 文件 的 命令 行 ， 缺 省 值 是 s (cc) $(CFLAGS) S(CPPFLAGS) S(TARGET ARCH) -co 











COMPILE.cc 

















编译 .cc 文件 的 命令 行 ， 缺 省 值 是 s (cxx) S(CXXFLAGS) S(CPPFLAGS) S(TARGET ARCH) -co 


RM 
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4. 目 动 处 理 头 文 件 的 依赖 关系 
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4. 目 动 处 理 头 文件 的 依赖 关系 


现在 我 们 的 Makefile 写 成 这 样 : 








imain: main.o stack.o maze.o 
: gcc $^ -o $@ 


: main.o: main.h stack.h maze.h 
|! stack.o: stack.h main.h 
: maze.o: maze.h main.h 


! clean: 
i —rm main *.o 


; .PHONY: clean 








T&H Ct 内 pl, 用 al1 KERA 目标 。 现在 还 有 一 点 比较 麻烦 ， 在 写 main. Ov stack.ofllmaze. 5 这 一 个 H 
标的 规则 时 要 查看 源 代码 ， 找 出 它们 依赖 于 哪些 头 文 件 ， 这 很 容易 出 错 ， 一 是 因为 有 的 头 文件 
1 含 在 娘 一 个 头 文件 中 ， 在 写 规则 时 很 容易 遗漏 ， 二 是 如 果 以 后 修改 源 代码 改变 了 依赖 关系 ， 
很 可 能 忘记 修改 Makefile 的 规则 。 为 了 解决 这 个 问 是 页 ， 可 以 用 gcc 的 -m 选 项 目 动 生 成 目标 文件 和 

源 文件 的 依赖 关系 : 






























































































































































: $ gcc -M main.c 

: main.o: main.c /usr/include/stdio-h /usr/include/features-h Y 
/usr/include/sys/cdefs.h /usr/include/bits/wordsize.h \ 
/usr/include/gnu/stubs.h /usr/include/gnu/stubs-32.h \ 
/usr/lib/gcc/i486-linux-gnu/4.3.2/include/stddef.h \ 
/usr/include/bits/types.h /usr/include/bits/typesizes.h \ 

:  /usr/include/libio.h /usr/include/ G config.h 

: /usr/include/wchar.h \ 
/usr/lib/gcc/i486-linux-gnu/4.3.2/include/stdarg.h \ 
/usr/include/bits/stdio lim.h /usr/include/bits/sys errlist.h 

emn 
Stack.h maze.h 



































-M 选 项 把 staio.h 以 及 它 所 包含 的 系统 头 文件 也 找 出 来 了 ， 如 果 我 们 不 需要 输出 系统 头 文件 的 依 
赖 关 系 ， 可 以 用 -mm 选项 : 


























i$ gcc -MM *.c 

:main.o: main.c main.h stack.h maze.h 
| maze.o: maze.c maze.h main.h 

i Stack.o: Stack. ch Sacco mass: 



































接 下 来 的 问题 是 怎么 把 这 些 规则 包含 到 Makefile 中 ，GNU make 的 官方 手册 建议 这 样 写 : 


imain: main.o stack.o maze.o 
: gcc $^ -o $@ 


! clean: 
i =rm marn *.0 


: PHONY: clean 
! sources = main.c stack.c maze.c 


i include $(sources:.c-.d) 


set -e; rm -f $0; \ 

$(CC) -MM $(CPPFLAGS) $< > $0.$9$$$; \ 

Geol “S,\(Se\)\ool sl*zXlao S s og" « S@.SSSS = SOR \ 
rm -f $0.55$$ 


























sources 变 量 包 含 我 们 要 编译 的 所 有 .< 文件 ， $ (sources: .c=.d) 是 一 个 变量 替换 语法 ， 
把 sources 变 量 ' 每 一 项 的 .c 替 换 成 .a， 所 以 inciude 这 一 句 相 当 于 : 









































i include main.d stack.d maze.d 





























类 似 于 C 语 言 的 #include 指 示 ， 这 里 的 incluae 表 示 包 含 三 个 文件 nain.a、 stack.dfllmaze.d, 这 
三 个 文件 也 应 该 符合 Makefile 的 语法 。 如 果 现 在 你 的 工作 目录 是 干净 的 ， 只 有 .c 文 件 、.n 文 件 


和 Makefile， 运行 ake 的 结果 是 : 

































































: $ make 

: Makefile:13: main.d: No such file or directory 

| Makefile:13: stack.d: No such file or directory 

: Makefile:13: maze.d: No such file or directory 

‘set -e; rm -f maze.d; \ 

: cc -MM maze.c > maze.d.$$; \ 

| sed 's,\(maze\)\.o[ :]*,\l.o maze.d : ,g' < maze.d.$$ > 
: maze.d; \ 

rm -f maze.d.$$ 

‘set —e; rm -f stack.d; \ 

| cc -MM stack.c > stack.d.$$; \ 

: see "Ss, \(stack\)\.0l sle NLO Stako 8 ,¢"! eek > 
D CONCI ds... 

: idu» =i Arak ChSS 

: set -e; rm -f main.d; \ 

: cc -MM main.c > main.d.$$; \ 

| sacl 1s- A mariny) iol Si, Vice meine 8 pg < > 
‘main.d; \ 

ai Fmd (elo SS 


P OG -E -O feuis. o MALAE 
Aoc TC (9G SO. STEEK E 
c -c -o maze.o maze.c 


: gcc main.o stack.o maze.o -o main 































































































一 开始 找 不 到 .a 文 件 ， 所 以 make 会 报警 告 。 但 是 make 会 把 inciuge 的 文件 名 也 当 作 目标 来 尝试 更 
新 ， 而 这 些 目标 适用 模式 规则 s.a: sc， 所 以 执行 它 的 命令 列表 ， 比 如 生成 maze .a 的 命令 : 





| set e; rm f maze.d; \ 

: cc -MM maze.c > maze.d.$$; \ 

i sed 's,\(maze\)\.o[ :]*,\l.o maze.d : ,g' < maze.d.$$ > 
‘maze.d; \ 

| rm -f maze.d.$$ 









































生意， 虽然 在 Maketfile 中 这 个 命令 写 了 四 行 ， 但 其 实 是 一 条 命令 ，make 只 创建 一 个 Shell 进 程 执 
aeons 这 条 命令 分 为 5 个 子 命令 ， 用 ;号 隔 开 ， 并 且 为 了 美观 ， 用 续 行 符 \ 拆 成 四 行 来 写 。 
执行 步骤 为 : 


1. set ee o UNDE 如 果 它 执行 的 任何 一 条 命令 的 退出 状态 非 零 
则 立刻 终止 ， 不 再 执行 后 续 命 令 


2. 把 原来 的 maze.da 删 掉 
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3. 重新 生成 maze . NIA, 保存 成 文件 maze .a.1234 (假设 当前 Shell 进 程 
的 id 是 1234) 。 注 意 ， 在 Makefile 中 s 有 特殊 含义 ， 如 果 要 表示 它 的 字面 意思 则 需要 写 两 
re a 的 四 个 $ 传 给 Shell 变 成 两 个 $， 两 个 $ 在 Shell 中 表示 当前 进程 的 jd， 一 
般 用 它 给 临时 文件 起 名 ， 以 保证 文件 名 唯一 。 


4. 这 个 sea 命 令 比 较 复 杂 ， 就 不 细 讲 ] ; EXE BCR e maze.d.1234 的 内 容 应 该 
是 maze.o: maze.c maze.h main.h, 经 过 过 sea 处 理 之 后 存 为 maze.d， 其 内 容 是 maze.o 


maze.d: maze.c maze.h main.ho 
























































































































































































































































5. 最 后 把 临时 文件 naze.a.1234 删 掉 。 



























































pan 





不 管 是 Makefile 本 号 还 是 被 它 包 含 的 文件 ， 只 要 有 一 个 文件 在 make 过 程 中 被 更 新 了 ，make 就 会 
新 读 取 整个 Makefile 以 及 被 它 包含 的 所 有 文件 现在 main.ad、 stack. gd 和 maze .a 都 生成 了 ， 就 可 
以 正常 包含 进来 了 (假如 这 时 还 没有 生成 ，make 就 要 报错 而 不 是 报警 告 了 ) ， 相 当 于 

在 Makefile 中 添 了 三 条 规则 : 


























~ 




































































i main.o main.d: main.c main.h stack.h maze.h 
|! maze.o maze.d: maze.c maze.h main.h 
|: Stack.o stack.d: stack.c stack.h main.h 























如 果 我 在 main.c 中 加 了 一 行 #include "foo.h", ABA: 
































1、main.c 的 修改 日 期 变 了 ， 根 据 规则 main.o main.d: main.c main.h stack.h maze.h 要 重新 生 
成 main.o 和 main.d。 生成 main.o 的 规则 有 两 条 





:main.o: main.c main.h stack.h maze.h 

f CoO? Boe 

:# commands to execute (built-in): 

i S(COMPILE.c) $(OUTPUT OPTION) $« 











第 一 条 是 把 规则 main.o main.d: main.c main.h stack.h maze. h 拆 开 写 人 Sell AY, 第 二 条 是 隐 含 


规则 ， 因 此 执行 cc 命令 重新 编译 main.o。 生 成 main.da 的 规则 也 有 两 条 : 











P& Cle Boe 
set e; rm f $0; \ 

$(CC) -MM $(CPPFLAGS) $< > $80.$$$$; \ 

see "Ss, \(S=\)\.0l s]*.\Wiee S@ s -0t < S@.SSSS > SAF \ 
rm -f $@.SSS5 























因此 main.a 的 内 容 被 更 新 为 main.o main.d: main.c main.h stack.h maze.h foo.ho 





























hm 
1 














2. 由 于 main .da 被 Makefile 包 含 ， main.d 被 更 新 又 导致 nake 
的 main.d 包 含 进来 ， 于 是 新 的 依赖 关系 生效 了 。 


E 新 读 取 整个 Makefile ， 把 新 
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5. ^ FH 的 make 命 令 行 选 项 





5. 常用 的 make 命 令 行 选 项 


第 22 3: Makefile Æti 





5. i iy FH make fin 命令 行 选 项 


-n 选 项 只 打印 要 执行 的 命令 ， 而 不 会 真 的 执行 命令 ， 这 个 选项 有 助 于 我 们 检查 Makefile 写 得 是 否 
正确 ， 由 于 Makefile 不 是 顺序 执行 的 ， 用 这 个 选项 可 以 先 看 看 命令 的 执行 顺序 ， 确 认 无 误 了 再 真 
正 执 行 命令 


-c 选 项 可 以 切换 到 另 一 个 目录 执行 那个 目录 下 的 Makefile ， 比 如 先 退 到 上 一 级 目录 再 执行 我 们 
的 Makefile 〈 假 设 我 们 的 源 代 码 都 放 在 testmake 目 录 下 ) : 







































































G el ao 

|: $ make -C testmake 

: make: Entering directory `/home/djkings/testmake' 
是 se -c -o main.o main.c 

Noc —(g -0 be.) bee Ne 

p (Ge -c -o maze.o maze.c 

i gcc main.o stack.o maze.o -o main 

; make: Leaving directory '/home/djkings/testmake' 



































一 些 规模 较 大 的 项 目 会 把 不 同 的 模块 或 子 系统 的 源 代码 放 在 不 同 的 子 目录 中 ， 然 后 在 每 个 子 日 
录 下 都 写 一 个 该 目录 的 Makefile ， 然 后 在 一 个 总 的 Makefile 中 用 maxke -cfit- 命令 执行 每 个 信子 目录 下 
的 Makefile 。 例如 Linux 内 核 源 代码 根 H 录 下 有 waketile 3 F HX fs net 村 tA SA 
的 Makefile， 二 级 子 目 录 fs/ramfs、 net/ipv4 等 也 有 各 自 的 Makefile。 


在 make 命 令 行 也 可 以 用 -或 := 定义 变量 ， 如 末 这 次 编 详 我 想 加 调试 选项 - g， 但 我 不 想 每 次 编译 都 
加 -g 选 项 ， 可 以 在 命令 行 定义 cgracs 变 量 ， 而 不 必修 改 Makefile 编 译 完 了 再 改 回 来 : 





























































































































ig make CFLAGS--g 
icc =Q] =0 =0 malm- O maim e 
ice =C] -0 —o) rack -© stack.c 
ice =g -C —o maze.o maze.c 
: gcc main.o stack.o maze.o -o main 















































的 值 。 





如 果 在 Makefile 中 也 定义 了 cfracs 变 量 ， 则 命令 行 的 值 覆 盖 Makefile 
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4. 目 动 处 理 头 文件 的 依赖 关系 第 23 章 指针 











5. 指针 与 结构 体 





1. 指针 的 基本 操作 





e 第 23 3 指针 下 一 页 
1. 指针 的 基本 操作 
在 第 12 wt 栈 与 队列 讲 过 ， 堆栈 有 栈 顶 指针 ， 队 列 有 头 指针 和 尾 指针 ， 这 些 概念 中 的 “指针 "本 质 
























































上 是 一 个 整数 ， 是 数组 的 索引 ， 通 过 指针 访问 数组 中 的 某 个 元 素 。 在 图 20.3 “间接 寻 址 "我 们 又 
看 到 另外 一 种 指针 的 概念 ， 把 一 个 变量 所 在 的 内 存单 元 的 地 址 保存 在 另外 一 个 内 存单 元 中 ， 保 
存 地 址 的 这 个 内 存单 元 称 为 指针 ， 通 过 指针 和 间接 寻 址 访问 变量 ， 这 种 指针 在 C 语 言 中 可 以 用 一 
个 指针 类 型 的 变量 表示 ， 例 如 某 程序 中 定义 了 以 下 全 局 变量 : 




















































































































































































































这 几 个 变量 的 内 存 布局 如 下 图 所 示 ， 在 初学 阶段 经 常 要 借助 于 这 样 的 图 来 理解 指针 。 











图 23.1. 指针 的 基本 概念 


0x804a024 


0x804a020 


mw 
0x804a024 
0x804a014 
m 
0x804a020 
0x804a010 


这 里 的 是 取 地 址 运算 符 (Address Operator) ，si 表 示 取 变量 i 的 地 址 ，int *pi = si; RANE 
义 一 个 指向 int 型 的 指针 变量 ei ， 并 用 i 的 地 址 来 初始 化 pi。 我 们 讲 过 全 局 变量 只 能 用 常量 表达 
式 
K 





































































































初始 化 ， 如 果 定 义 int p = i; 就 错 了 ， 因 为 i 不 是 常量 表达 式 ， 然 而 用 i 的 地 址 来 初始 化 一 个 
针 却 没有 错 ， 因 为 1 的 地 址 是 在 编译 链接 时 能 确定 的 ， 而 不 需要 到 运行 时 才 知 道 ，si 是 常量 
达 式 。 后 面 两 行 代码 定义 了 一 个 字符 型 变量 -和 一 个 指向 c 的 字符 型 指针 pc， 注 意 pi 和 pc 虽然 是 
不 同类 型 的 指针 变量 ， 但 它们 的 内 存单 元 都 占 4 个 字 节 ， 因 为 要 保存 32 位 的 虚拟 地 址 ， 同 理 ， 
在 64 位 平台 上 指针 变量 都 占 8 个 学 市。 


我 们 知道 ， 在 同一 个 语句 中 定义 多 个 数组 ， 个 都 要 有 [1] 号 : int a[l5]，b[5];。 同 样 道理 ， 
在 同一 个 语句 中 定义 多 个 指针 变量 ， 都 要 有 * 号 ， 例 如 : 
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如 果 写 成 int* p, a 就 错 了 ， 这 样 是 定义 了 一 个 整 型 指针 p 和 一 个 整 型 变量 gs， 定 义 数 组 的 [1 号 






























































写 在 变量 后 面 ， 而 定义 指针 的 * 号 写 在 变量 前 面 ， 更 容易 看 错 。 定 义 指针 的 * 号 前 后 空格 都 可 以 
省 ， 写 成 int*p,*q; 也 算 对 ， 但 * 号 通常 和 类 型 int 之 间 留 空格 而 和 变量 名 写 在 一 起 ， 这 样 看 int 
*p，q; 就 很 明显 是 定义 了 一 个 指针 和 一 个 整 型 变量 ， 就 不 容易 看 错 了 。 


如 果 要 让 pi 指向 另 一 个 整 型 变量 j， 可 以 重新 对 pi 赋值 : 





































































































































































































































































































如 果 要 改变 pi 所 指向 的 整 型 变量 的 值 ， 比 如 把 变量 ;的 值 增加 10， 可 以 写 : 



































































































































这 里 的 * 号 是 指针 间接 寻 址 运算 符 (Indirection Operator) ，*pi 表 示 取 指针 pi 所 指向 的 变量 的 
值 ， 也 称 为 Dereference 操 作 ， 指 针 有 时 称 为 变量 的 引用 (Reference) ， 所 以 根据 指针 找到 变 


量 称 为 Dereference 。 

& 运 算 符 的 操作 数 必 须 是 左 值 ， 因 为 只 有 左 值 才 表 示 一 个 内 存单 元 ， 才 会 有 地 址 ， 运 算 结 果 是 指 
针 类 型 。* 运 算 符 的 操作 数 必须 是 指针 类 型 ， 运 算 结果 可 以 做 左 值 。 所 以 ， 如 果 表 达 式 可 以 做 
左 值 ，x* gE 和 E 等 价 ， 如 果 表 达 式 E 是 指针 类 型 ，gxE 和 E 等 价 。 


指针 之 间 可 以 相互 赋值 ， 也 可 以 用 一 个 指针 初始 化 另 一 个 指针 ， 例 如 : 



























































































































































































































































Inv 



































: int "Ea. = jube 








或 者 : 





TE DIES 
A aou = pi; 


























表示 Pi 指 癌 哪 就 让 ptri 也 指向 哪 ， 本 质 上 就 是 把 变量 pi 所 保存 的 地 址 值 赋 给 变量 ptri。 


用 一 个 指针 给 另 一 个 指针 赋值 时 要 注意 ， 两 个 指针 必须 是 同一 类 型 的 。 在 我 们 的 例子 
= pi 是 int * 型 的 ， pc 是 char * 型 的 ， pi = pc; 这 样 赋值 就 是 销 i E. 但 是 可 以 先 强制 类 型 转 








































































































































































































图 23.2. 把 char * 指 针 的 值 赋 给 int *THT 




















*pi 






0x804a024 


0x804a020 






0x804a014 


pc: 
0x804a024 

pi: 
0x804a024 


现在 pi 指向 的 地 址 和 pc 一 样 ， 但 是 通过 pc 只 能 访问 到 一 个 字 节 ， 而 通过 *pi 可 以 访问 到 4 个 字 

节 ， 后 3 个 字 节 已 经 不 属于 变量 * 了 ， 除 非 你 很 确定 变量 < 的 一 个 字 节 和 后 面 3 个 字 节 组 合 而 成 

的 int 值 是 有 意义 的 ， 否 则 就 不 应 该 给 bi 这 么 赋值 。 因 此 使 用 指针 要 特别 小 心 ， 很 容易 将 指针 指 
向 错误 的 地 址 ， 访 问 这 样 的 地 址 可 能 导致 段 错误 ， 可 能 读 到 无 意义 的 值 ， 也 可 能 意外 改写 了 某 
些 数据 ， 使 得 程序 在 随后 的 运行 中 出 错 。 有 一 种 情况 需要 特别 注意 ， 定 义 一 个 指针 类 型 的 局 部 
变量 而 没有 初始 化 : 


0x804a010 







































































































































































































































































aügüe wF 




















我 们 知道 ， 在 堆栈 上 分 配 的 变量 初始 值 是 不 确定 的 ， 也 就 是 说 指针 p 所 指向 的 内 存 地 址 是 不 确定 
的 ， 后面 用 *p 访 问 不 确定 的 地 址 就 会 导致 不 确定 的 后 果 ， 如 果 导 致 段 错 误 还 比较 容易 改正 ， 如 
果 意 外 改写 了 数据 而 导致 随后 的 运行 中 出 错 ， 就 很 难 找到 错误 原因 了 。 像 这 种 指向 不 确定 地 址 
的 指针 称 为 “ 野 指针 ”(Unbound Pointer) ， 为 避免 出 现 野 指 针 ， 在 定义 指针 变量 时 就 应 该 给 它 
明确 的 初 值 ， 或 者 把 它 初始 化 为 NULL: 
















































































































































































: int main (void) 


te NO 














NULL 在 C 标 准 库 的 头 文 件 stagef.h 中 定义 : 




































































就 是 把 地 址 0 转换 成 指针 类 型 ， 称 为 空 指针 ， 它 的 特殊 之 处 在 于 ， 操 作 系 统 不 会 把 任何 数据 保存 
在 地 址 0 及 其 附近 ， 也 不 会 把 地 址 0~0xfff 的 页 面 映射 到 物理 内 存 ， 所 以 任何 对 地 址 0 的 访问 都 会 
立刻 导致 段 错误 。*p = 0; 会 导致 段 错误 ， 就 像 放 在 眼前 的 炸弹 一 样 很 容易 找到 ， 相 比 之 下 ， 野 
指针 的 错误 就 像 埋 下 地 雷 一 样 ， 更 难 发 现 和 排除 ， 这 次 走 过 去 和 没事， 下 次 走 过 去 就 有 事 。 



















































































































































































































































































讲 到 这 里 就 该 讲 一 下 voia * 类 型 了 。 在 编程 时 经 常 需要 一 种 通用 指针 ， 可 以 转换 为 任意 其 它 类 
型 的 指针 ， 任 意 其 它 类 型 的 指针 也 可 以 转换 为 通用 指针 ， 最 初 C 语 言 没 有 voia * 类 型 ， 就 把 char 
* 当 通用 指针 ， 需 要 转换 时 就 用 类 型 转换 运算 符 () ANSI 在 将 C 语 言 标准 化 时 引入 了 voia * 类 
OL, voia “HEUEA SC 而 不 必用 类 型 转换 运算 符 。 注 意 ， 只 能 
定义 voia * 指 针 ， 而 不 能 定义 voia 型 的 变 x* 指 针 和 别 的 指针 一 样 都 占 4 个 字 节 ， 而 
如 果 定 义 vota 型 变量 (也 就 是 关 型 暂时 不 确定 的 变 编译 器 不 知道 该 分 配 几 个 字 节 给 变 
量 。 同 样 道理 ，veia * 指 针 不 能 直接 Dereference , | 的 类 型 的 指针 再 

做 Dereference。voia * 指 针 常 用 于 函数 接口 ， 比如 : 









































































































































































































































































































































: void func (void *pv) 


P 

[= soy = VAY ie illegal wy 
char *pchar = pv; 
pehari RAN 


i} 


: int main (void) 


echan e; 
func(&c); 








下 一 章 讲 函数 接口 时 再 详细 介绍 void * 指 针 的 用 处 。 
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2. 指针 类 型 的 参数 和 返回 值 
首先 看 以 下 程序 ; 
































: #include <stdio.h> 


‘ine Swap NCE Xn ey) 
El 
| int temp; 

temp = *px; 
*px = *py; 
*py = temp; 
ee 


i} 





| int main (void) 

: { 

int i= 10, j = 20; 

int *p = swap(&i, &j); 

: printf ("now i-$d j=%d *p=%d\n", i, j, *p); 
| return 0; 

m 















































Jf AD, Va PRR Pe ST BE IPG MICE, swap (ei, sy 这 个 调用 相当 












































m 





























所 以 px 和 py 分 别 指向 main 函 数 的 局 部 变量 1 和 j， 在 swap 函 数 中 读 写 *px 和 *py 其 实 是 读 写 main 函 
数 的 1 和 j。 尽 管 在 swap 函 数 的 作用 域 中 访问 不 到 ;和 3 这 两 个 变量 名 ， 却 可 以 通过 地 址 访问 它 
T, swap KZO iF HET 


上 面 的 例子 还 演示 了 函数 返回 值 是 指针 的 情况 ，return px; 语句 相当 于 定义 了 一 个 临时 变量 并 
用 px 初始 化 : 



























































7 




































































































































































然后 临时 变量 tmp 的 值 成 为 表达 式 swap (ai, ep 的 值 ， 然 后 在 nain 函数 中 又 把 这 个 什 赋 给 了 p， 
相当 于 : 




















最 后 的 结果 是 swap 水 数 的 px 指向 哪 就 让 main 孙 数 的 p 指 向 哪 。 我 们 知道 px 指向 i ， 所 以 p 也 指 
[H] ie 




















习题 


1、 对 照 本 市 的 描述 ， 像 图 23.1 “指针 的 基本 概念 "那样 画图 理解 冰 数 的 调用 和 返回 过 程 。 在 下 一 
章 我 们 会 看 到 更 复杂 的 参数 和 返回 值 形式 ， 在 初学 阶段 对 每 个 程序 都 要 画图 理解 它 的 运行 过 
































程 ， 只 要 基本 概念 清晰 ， 无 论 多 复杂 的 形式 都 应 该 能 正确 分 析 。 
2、 现 在 回头 看 第 3 节 “ 形 参 和 实 参 "的 习题 1， 那 个 程序 应 该 怎么 改 ? 
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3. 指针 与 数组 


先 看 个 例子 ， 有 如 下 语句 : 





E a[10]; 
pneu *pa = &a[0]; 
i patt; 



















































































一 个 int 型 元 素 占 4 个 字 节 ， 所 以 pa++ 使 pa 所 指向 的 地 址 加 4， 注 意 不 是 加 1。 











首先 指针 pa 指向 arol 的 地 址 ， 注 意 后 级 运算 符 的 优先 级 高 于 单 目 运 算 符 ， 所 以 是 取 ar 
hk, 而 不 是 取 a 的 地 址 。 然后 pa++ 让 pa 指向 下 | 元 素 (也 就 是 ar11 ) 由 于 pa 是 int 483 












































































































































变量 之 间 的 关系 。 


图 23.3. 指针 与 数组 








a[0]a[1]a[2]a[3] PR a[9] 
低地 址 高地 址 
































既然 指针 可 以 用 ++ 运 算 符 ， 当 然 也 可 以 用 +、- 运 算 符 ，pa+2 这 个 ee 如 上 图 


ES 
































下 面 画图 理解 。 从 前 面 的 例子 我 们 发 现 ， 地 址 的 具体 数值 其 实 无 关 紧 要 ， 关 键 是 : 
间 的 关系 (a[1] 位 于 at0] 之 后 4 个 字 市 处 ) 以 及 指针 与 变量 之 间 的 关系 (指针 保存 的 是 
HE) ， 现 tea 种 画 法 ， 省 略 地 址 的 具体 数值 ， 用 方 框 表示 存储 空间 ， 用 箭头 表示 指针 和 








"iem pa 指向 a[1] ， 那 么 pa+2 指 向 a[3]。 事 实 上 ，Flrg2] 这 种 写法 和 (*((E1)+(E2))) 是 等 


























的 ，* (pa+2) 也 可 以 写成 pa[2] ，pa 就 像 数 组 名 一 样 ， 其 Rt APA AAPAN, 




















PA ey 1 oc 是 因为 它 等 从 于 * (a+2) E 



























































a[2] 之 所 
” 讲 过 数组 名 做 右 
ale agate 所 以 ar2 1 和 sara ARLE MNT. 都 是 通过 指针 间接 寻 址 


1 的 地 





说 明 地 址 之 











访问 元 素 。 由 于 (x((E1)+ ,aa) 显然 可 以 安 成 0。 * ( (E2)+ (El1)))， 所 以 E1[E2] 也 可 以 写成 E2[E1]， 
这 意味 着 2 [a]、 2 toa] 这 种 写法 也 是 对 的 ， 但 一 般 不 这 么 写 。 男 外 ， 由 于 a 做 右 值 使 用 时 
和 ga[t0] 是 一 个 意思 ， 所 以 int *pa = ga[01; 通 常 不 这 么 写 ， 而 是 写成 更 简洁 的 形式 int «pa = 
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了 。 在 上 而 的 例子 1， 表 达 式 pa[-11 是 合法 的 ， 它 和 aro]1 表 示 同 一 个 元 素 。 



































现在 猜 一 下 ， 两 个 指针 变量 做 比较 运算 (>、>=、<、<=、==、!=) 表示 什么 意义 ?两 个 指 






































量 做 减法 运算 又 表示 什么 意义 ? 
根据 什么 来 猜 ? 根据 第 3 节 “ 形 参 和 实 参 " 讲 过 的 Rule of Least Surprise Jil. RE 











MU T HR 














在 第 1 节 “ 数 4 归 作 "还 讲 过 C 语 言 多 许 数组 下 标 是 负数 ， 现 在 你 该 明白 为 什么 这 样 规定 


针 变 





针 和 

















常数 加 减 的 概念 ， 再 根据 以 往 使 用 比较 运算 的 经 验 ， 就 应 该 猜 到 pa + 2 > pa, pa - 1 = a, 

所 以 指针 之 间 的 比较 运算 比 的 是 地 址 ， C 语 言 正 是 这 样 规定 的 ， 不 过 C 语 言 的 规定 更 为 严谨 ， 只 
有 指向 同一 个 数组 中 元 素 的 指针 之 间 相 互 比较 才 有 意义 ， 否 则 没有 意义 。 那 么 两 个 指针 相 减 表 
示 什 么 ? pa - a 等 于 儿 ? 因为 pa - 1 = a, 所 以 pa 一 a 显 然 应 该 等 于 1 ， 指针 相 减 表示 两 个 指 
针 之 间 相 差 的 元 素 个 数 ， 同 样 只 有 指向 同一 个 数组 ' 元 素 的 指针 之 间 相 减 才 有 意义 。 两 个 指针 
相 加 表示 什么 ? 想 不 出 来 它 能 有 什么 意义 ， EE 目 加 。 假 如 C 语 言 为 
指针 相 加 也 规定 了 一 种 意义 ， 那 就 相当 Surprise 了 ， 不 符合 一 般 的 经 验 。 无 论 是 设计 编程 语言 还 
是 设计 函数 接口 或 人 机 界面 都 是 这 个 道理 ， 应 该 尽 可 能 让 用 ELLE MS ZR 仿 知 识 就 能 推断 出 

该 系统 的 基本 用 法 。 


在 取 数 组 元 素 时 用 数组 名 和 用 指针 的 语法 一 样 ， 但 如 果 把 数组 名 做 左 值 使 用 ， 和 指针 就 有 区 别 
了 。 例 如 pa+r+ 古 合法 的 ， 但 a++ 就 不 合法 ，pa = a + 1 是 合法 的 ， 但 a = pa + 1 就 不 合法 。 数 组 
名 做 右 值 时 转换 成 指向 首 元 素 的 指针 ， 但 做 左 值 仍 然 表 示 整 个 数组 的 存储 单元 ， 而 不 是 首 元 素 
的 存储 单元 ， 数 组 名 做 左 值 还 有 一 点 特殊 之 处， d PHA 赋值 这 些 运算 符 ， 但 支持 取 地 址 运 
算得:， 所 以 sa 是 合法 的 ， 我 们 将 在 第 i 维 数组 "介绍 这 种 语法 。 


在 函数 原型 中 ， 如 果 参 数 是 数组 ， 则 等 价 于 参数 是 指针 的 形式 ， 例 如 : 


















































































































































































































































































































































































































































































































































‘void func(int *a) 


Z 


`} 


























第 一 种 形式 方 括号 中 的 数字 可 以 不 写 ， 仍 然 是 等 价 的 : 


: void func(int p) 


e 


|j 

















参数 写成 指针 形式 还 是 数组 形式 对 编译 和 来 说 没 区 别 ， 都 表示 这 个 参数 是 指针 ， 之 所 以 规定 两 
种 形式 是 为 了 给 读 代码 的 人 提供 有 用 的 信息 ， 如 果 这 个 参数 指向 一 个 元 素 ， 通常 写成 指针 的 形 
式 ， 如 果 这 个 参数 指 癌 一 串 元 素 中 的 首 元 素 ， 则 经 常 写成 数组 的 形式 。 
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4. 指针 与 const 限 定 符 
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4. 指针 与 const 限定 符 


const 限定 符 和 指针 结合 起 来 常见 的 情况 有 以 下 儿 种 。 









































Seo ee a 
‘int const *a; 



































oo T EMI ELE m a 所 指 疝 的 内 存单 元 不 可 改写 ， 所 






























































a 是 一 个 指向 int 到 的 const 指 针 , *a 是 可 以 改写 的 ， 但 a 不 允许 改写 。 
































a 是 一 个 指向 const int 型 的 const 指 针 , 因此 *a 和 a 都 不 允许 改写 。 


指向 非 const 变量 的 指针 或 者 非 const 变量 的 地 址 可 以 传 给 指向 const 变 量 的 指针 ， 编 译 右 可 以 做 
隐 式 类 型 转换 ， 例 如 : 















































cher e a 














但 是 ， 指 向 const 变 量 的 指针 或 者 const 变 量 的 地 址 不 可 以 传 给 指向 非 const 变 量 的 指针 ， 以 免 透 


tse 
过 后 者 意外 改写 了 前 者 所 指向 的 内 存单 元 ， 例如 对 下 面 的 代码 编译 占 or 
















































































/ Const char ie di ats 
! char *pe = &c; 

















即使 不 用 const 限 定 符 也 能 写 出 功能 正确 的 程序 ， 但 恨 好 的 编程 习惯 应 该 尽 可 能 多 地 使 
用 -const ， 因为 : 


1. const 给 读 代 人 码 的 人 传达 非常 有 用 的 信息 。 比 如 一 个 函数 的 参数 是 const char *， 你 在 调 
用 这 个 函数 时 就 可 以 放心 地 传 给 它 char * 或 const char * 指 针 ， 而 不 必 担 心 指 针 所 指 的 内 
存单 元 被 改写 。 


2. 尽 可 能 多 地 使 用 const 限 定 符 ， 把 不 该 变 的 都 声明 成 只 读 ， 这 样 可 以 依靠 编译 需 检 查 程 序 
的 Bug ， 防 止 意外 改写 数据 。 


3. const 对 编译 圳 优化 是 一 个 有 用 的 提示 j A Ea tL AES HE const 变量 优化 成 常量 。 


3 1 “变量 的 存储 布局 "我 们 看 到 ， 字 符 串 字面 值 通常 分 配 在 .roqata 段 ， 而 在 第 4 证“ 字符 
串 ? 提 到 ， 字 符 串 字面 值 类 似 于 数组 名 ， 做 右 值 使 用 时 自动 转换 成 指 疝 首 元 素 的 指针 ， 这 种 指针 
应 该 是 const char * 型 。 我 门 知道 erintf 函 数 原 型 的 第 一 个 参数 是 const char * 型 ， 可 以 
把 char * 或 const char * 指 针 传 给 它 ， 所 以 下 面 这 些 调用 都 是 合法 的 : 












































































































































































































































































































































































































































‘const char p "nea 
eonst ela ss = Valbes s 
achats 5 = Veloce! p 

i printf (p); 

ene (sti) 

i printf (str2); 

; printf ( 


nabed"); 





















































注意 上 面 第 一 行 ， 如 果 : 定义 个 指针 指向 字符 串 字 面值 ， 这 个 指针 应 该 是 const char x 
如 果 写 成 cnar *p = "abca"; 就 不 好 了 , ERE, 例如 : 












































"TE main(void) 
Pd 
| char *p = "abcd"; 


Up DT 














5 指向. rodata 段 ， 不 允许 改写 ， 但 编译 器 不 会 报错 ， 在 运行 时 会 出 现 段 错误 。 
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3. 指针 与 数组 5. 指针 与 结构 体 











5. 指针 与 结构 体 


"sue E 
i auc 
int num; 


BF 
SEE winie pg 
Sel un pe Mu 





要 通过 指针 p 访 问 结构 体 成 员 可 以 写成 (xp) .c 和 (xp) .num， 为 了 书写 方便 ，C 语 言 提供 了 -> 运算 
符 ， 也 可 以 写成 p->c 和 p->num。 





6. 指向 指针 的 指针 与 指针 数组 
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6. 指 问 指针 的 指针 与 指针 数组 


针 可 以 指向 基本 类 型 ， 也 可 以 指向 复合 类 型 ， 因 此 也 可 以 指向 另外 一 个 指针 变量 ， 称 为 指向 
针 的 指针 。 
















































































At 一 小 
IC Oy 
ar dr 














pime ip 
| LE “pi = Gly 
b ne wo == Cap 























TH 






























































这 样 定义 之 后 ， 表 达 式 sppi 取 pi 的 值 ， 表 达 式 wxppi 取 ;的 值 。 请 读者 自己 画图 
fii ~ pi^ ppi 这 三 个 变量 之 间 的 天 No 



































很 自然 地 ， 也 可 以 定义 指向 “指向 指针 的 指针 ”的 指针 ， 但 是 很 少 用 到 |: 










































































数组 中 的 每 个 元 素 可 以 是 基本 类 型 ， 也 可 以 复合 类 型 ， 因 此 也 可 以 是 指针 类 型 。 例 如 定义 一 个 
数组 a 由 10 个 元 素 组 成 ， 每 个 元 素 都 是 int THF: 


















































| int *a[10]; 














这 称 为 指针 数组 。int xa[10]; 和 int xxpa; 之 间 的 关系 类 似 于 int atio]; Tint xpa; 之 间 的 关 
A: a 是 由 一 种 元 素 组 成 的 数组 ，pa 则 是 指向 这 种 元 素 的 指针 。 所 以 ， 如 果 pa 指 向 a 的 首 元 素 : 






































SUE *a [10] ; 
i int **pa = &a[0]; 














取 的 是 同一 个 元 素 ， 唯 一 比 原来 复杂 的 地 方 在 于 这 个 元 素 是 一 个 int * 指 针 ， 而 





则 pearo ] 和 ar 0 
不 是 基本 类 型 

















o me 



































我 们 知道 main 函 数 的 标准 原型 应 该 是 int main(int argc, char *argv[]); 。argc 是 命令 行 参数 
的 个 数 。 而 argv 是 一 个 指 疝 指针 的 指针 ， 为 什么 不 是 指针 数组 呢 ? 因 为 前 面 讲 过 ， 阴 数 原 型 
AY ] 表 示 指 针 而 不 表示 数组 ， 等 价 于 char **argvo 那 为 什么 要 写成 char *argv[] 而 不 写成 char 
xxargv 呢 ?这 样 写 给 读 代码 的 人 提供 了 有 用 信息 ，argv 不 是 指 RHET, 而 是 指向 一 个 指针 
数组 的 首 元 素 。 数 组 中 每 个 元 素 都 是 char * 指 针 ， 指 向 一 个 命令 行 参数 字符 串 。 































































































































































































; #include <stdio.h> 


i main(int argc, char *argv[]) 


n 


aoe, tp 
arose (a, = Of aL < argep aa) 

primer (Uae [Delle Wo. al, msesSEI S 
return 0; 





: $ gcc main.c 
PS o/a Ote @ ls © 








arov 0 |=. /a.out 

: argv[1]-a 

‘ argv [2 =b 

arov e 

: $ In -s a.out printargv 
"ond printargvcdee 

: argv[0]=./printargv 

i argv[1]2d 

: argv[2]=e 




















注意 程序 名 也 算 一 个 命令 行 参数 ， 所 以 执行 ./a.out a b c 这 个 命令 时 ，argc 是 4，argv 如 下 图 
所 示 : 














图 23.4. argv 指 针 数 组 


























由 于 argv[4] 是 Nu ， 我 们 也 可 以 这 样 循环 遍历 argv: 








: for (i=0; argv[i] != NULL; i++) 





























因而 不 会 访问 越界 ， 这 种 用 法 很 形象 地 称 


























~ 


NULL 标 识 着 argv 的 结尾 ， 这 个 循环 碰 到 NuLL 就 结束 
为 Sentinel，NuLz 就 像 一 个 哨兵 守卫 着 数组 的 边界 。 


在 这 个 例子 中 我 们 还 看 到 ， 如 果 给 程序 建立 符号 链接 ， 然 后 通过 符号 链接 运行 这 个 程序 ， 就 可 
以 得 到 不 同 的 argv[ol 。 通 常 ， 程 序 会 根据 不 同 的 命令 行 参 数 做 不 同 的 事情 ， 例 如 1s -1 和 1s - 
R 打 印 不 同 的 文件 列表 ， 而 有 些 程序 会 根据 不 同 的 argsvro] 做 不 同 的 事情 ， 例 如 专门 针对 佣 入 式 
系统 的 开源 项 目 Busybox ， 将 各 种 Linux 命 令 裁剪 后 集 于 一 身 ， 编 译 成 一 个 可 执行 文件 busybox， 
安装 时 将 busybox 程 序 找到 能 入 式 系 统 的 /bin 目 录 下 ， 同 时 
在 /bin、 /sbin、 /usr/bin^ /usr/sbin 等 目录 下 创建 很 多 指向 /bin/pusybox 的 符号 链接 ， 命名 
为 ceo、1ls、mv、ifconfig 等 等 ， 不 管 执行 哪个 命令 其 实 最 终 都 是 在 执行 /bin/busybox， 它 会 根 


据 argv[o1 来 区 分 不 同 的 命令 。 
习题 


1、 想 想 以 下 定义 中 的 const 分 别 起 什么 作用 ”编写 程序 验证 你 的 猜测 。 
















































































lf 






































































































































‘const char **p; 
Wehner on ST 
ehar U*vexeyssE [9p 





apes deest [md 
5. 指针 与 结构 体 起 始 页 7. 指向 数组 的 指针 与 多 维 数组 


7. 指向 数组 的 指针 与 多 维 数 组 
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7. 指 问 数组 的 指针 与 多 维 数 组 














指针 可 以 指向 复合 类 型 ， 上 一 三 讲 了 指向 指针 的 指针 ， 这 一 市 学 习 指 疝 数 组 的 指针 。 以 下 定义 
一 个 指向 数组 的 指针 ， 该 数组 有 10 个 int 元 素 : 





















































和 上 一 人 指针 数组 的 定义 int *ar1o1; 相 比 ， 仅 仅 多 了 一 个 0 插 号 。 如 何 记 住 和 区 分 这 两 种 定义 
WE? 我 们 可 以 认为 局 比 :有 更 高 的 优先 级 ， 如 果 a 先 和 * 结 合 则 表示 a 是 一 个 指针 ， 如 果 a 先 和 [] 结 
合 则 表示 a 是 一 个 数组 。int xa[10]; 这 个 定义 可 以 拆 成 两 句 : 

































































: typedef int *t; 
Pt allo; 























t 代 表 int * 类 型 ，a 则 是 由 这 种 类 型 的 元 素 组 成 的 数组 。int (xa) (101; 这 个 定义 也 可 以 拆 成 两 
5: 








"pypedero tmp 
e *a; 
































t 代 表 由 10 个 int 组 成 的 数组 类 型 ，a 则 是 指向 这 种 类 型 的 指针 。 


现在 看 指向 数组 的 指针 如 何 使 用 : 
































| int a[10]; 
i int (*pa) [10] = &a; 














是 一 个 数组 ， 在 sa 这 个 表达 式 中 ， 数 组 名 做 左 值 ， 取 整个 数组 的 首 地 址 赋 给 指针 pa。 注 
意 ，ga[0] 表示 数组 a 的 首 元 素 的 首 地 址 ， 而 ea 表示 数组 a 的 首 地 址 ， 显 然 这 两 个 地 址 的 数值 相 
， 但 这 两 个 表达 式 的 类 型 是 两 种 不 同 的 指针 类 型 ， 前 者 的 类 型 是 int *， 而 后 者 的 类 型 是 int 
*) [10]。 *pa 就 表示 pa 所 指向 的 数组 a， 所 以 取 数 组 的 arol 元 素 可 以 用 表达 式 (*pa) [0] © 注意 

到 x*xpa 可 以 写成 pa[0] ， 所 以 (xpa) [0] 这 个 表达 式 也 可 以 改写 成 pa[10] [0] ，pa 就 像 一 个 二 维 数组 的 
名 字 ， 它 表示 什么 含义 呢 ? 下 面 把 pa 和 二 维 数组 放 在 一 起 做 个 分 析 。 


int a[5][10]; flint (*pa) [10]; 之 间 的 关系 同样 类 似 于 int atio]; Mint *pa; 之 间 的 关系 : a 是 
由 一 种 元 素 组 成 的 数组 ，pa 则 是 指 癌 这 种 元 聚 的 指针 。 所 以 ， 如 果 pa 指 癌 a 的 首 元 素 : 
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i int a[5] [10]; 
FE iE (*pa) [10] = &a[0]; 





则 parol 和 arol 取 的 是 同一 个 元 素 ， 唯 一 比 原 来 复杂 的 地 方 在 于 这 个 元 素 是 由 10 个 int 组 成 的 数 
组 ， 而 不 是 基本 类 型 。 这 样 ， 我 们 可 以 把 ea 当成 二 维 数组 名 来 使 用 ，parlil[21 和 ar1] [2] 取 的 也 
是 同一 个 元 素 ， 而 且 pa 比 as 用 起 来 更 灵活 ， 数 组 名 不 支持 赋值 、 自 增 等 运算 ， 而 指针 可 以 支 
Tr, pa++ 使 pa 路 过 二 维 数组 的 一 行 (40455) > 指向 a[1] 的 首 地 址 。 


习题 






































































































































1、 定 义 以 下 变量 : 


a 

| Co ne UNUM E 
tat Via vores er 19V. Via! Ig TGH Nasty 
Oa IE EU Mu ud 


CEN (jon) [2] = sall EL E 


char peas (aie sc 





要 想 通 过 ba 或 pa 访问 数组 as 中 的 'z' 元 素 ， 分 别 应 该 怎么 写 ? 


sa 


8. 函数 类 型 和 函数 指针 类 型 
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8. 函数 类 型 和 函数 指针 类 型 





























在 C 语 言 中 ， 也 数 也 是 一 种 类 型 ， 可 以 定义 指 癌 函数 的 指针 。 我 们 知道 ， 指 针 变 量 的 内 存单 元 存 
放 一 个 地 址 值 ， 而 函数 指针 存放 的 就 是 函数 的 入 口 地 址 (位 于 .text 段 )”。 下 面 看 一 个 简单 的 例 
J: 



















































































例 23.3. 函数 指针 








i #inelude <stdio.h> 
i void say hello(const char *str) 


i printf("Hello %s\n", str); 
RJ 


| int main(void) 

'{ 

i vo ft (const ehari 5) SE ges hello; 
: f("Guys"); 

: return 0; 

i} 









































分 析 一 下 变量 f 的 类 型 声明 void (*£) (const char *), ，f 首 先 跟 * 号 结合 在 一 起 ， 因 此 是 一 个 指 
E C£) 外 面 是 一 个 函数 原型 的 格式 , 参数 是 const char *, 返回 值 是 voia， 所 以 上 是 指向 这 种 
范 数 的 指针 。 而 say_hello 的 参数 是 -const char *, 返回 值 是 voia， 正好 是 这 种 函数 ， ESL e n] 
以 指向 say_hello。 注 意 ，say_hello 是 一 种 函数 类 型 ， 而 函数 类 型 和 数组 类 型 类 似 ， 做 右 值 使 用 
时 自动 转换 成 函数 指针 类 型 ， 所 以 可 以 直接 赋 给 tf， 当然 也 可 以 写成 void (*£) (const char *) 
= &say_hello;, JU PAZ say hello FGA HOHE FSI e , 就 不 需要 自动 类 型 转换 o 


可 以 直接 通过 函数 指针 调用 函数 ， 如 上 面 的 f (weuys") ， 也 可 以 先 用 *f 取 出 它 所 指 的 函数 类 型 ， 
再 调用 函数 ， 即 (*f) ("Guys") 。 可 以 这 人 么 理解 : 天 数 调用 运算 符 0) 要 求 操作 数 是 函数 指针 ， 所 

Lit ("Guys") 是 最 直接 的 写法 ， Il say_hello ("Guys") Hk (*£) ("meuys") 则 是 把 函数 类 型 自动 转换 成 
函数 指针 然后 做 函数 调用 。 


下 面 再 举 儿 个 例子 区 分 函数 类 型 和 函数 指针 类 型 。 首 先 定义 函数 类 型 F: 
































































































































































































































































































































































































































































































































| int ENVOIE 
i int g (void); 








MANX 


























ALA PLC HT EAR [nl voia% 































































































数组 类 型 。 而 下 面 这 个 函数 声明 是 正确 的 : 





函数 e 返 回 一 个 * 类 型 的 函数 指针 。 如 果 给 e 多 套 几 层 括号 仍然 表示 同样 的 意思 : 










































































但 如 果 把 x 号 也 套 在 括号 里 就 不 一 样 了 : 


























这 样 声明 了 一 个 函数 指针 ， 而 不 是 声明 一 个 函数 。fp 也 可 以 这 样 声明 : 



































LI、 标量 类 型 、 结 构 体 、 联 合体 ， 但 不 能 返回 函数 类 型 ， 也 不 能 返回 


通过 函数 指针 调用 函数 和 直接 滑 用 画 数 相 比 有 什么 好 处 呢 ? 我 们 研究 一 个 例子 。 回 顾 第 3 节 i 













































































AEF UU 标志 ”的 习题 1， 由 于 结构 体 ' 多 了 一 个 类 JS FE =F BS TRE aT SE 





ig uc img part^ magnitudes angle XX pL 

















你 当时 是 怎么 实现 的 ? 大 概 





: double real part (struct complex struct z) 


d 


if (z.t == RECTANGULAR) 
return Z.a; 


return z.a * COS (2D); 














现在 类 型 字段 有 两 种 取 值 ，REcTANGULAR 和 poLAR ， 每 个 函数 都 要 if ... eise ..., W 







































































段 有 三 种 取 值 呢 ? 每 人 个 函数 都 要 if ... else if ... else, 或 者 switch ... case 





















































维护 代码 是 不 够 理想 的 ， 现 在 我 用 函数 指针 给 出 一 种 实现 : 











rect real part(struct complex struct z) 


return z.a; 


rect img part(struct complex struct z) 


return z.D; 


rect_magnitude (struct complex_struct z) 


rceturnisart (a Boel a Bold * A519) P 


rect angle(struct complex struct z) 
double PI - acos(-1.0); 
a (hom > 0) 


return atan(z.b / z.a); 
else 











return atan(z.b / z.a) + PI; 


i} 


: double pol real part(struct complex struct z) 
B 
pj 


ine buen Foi COS (4510) p 


: double pol img part(struct complex struct z) 
Ni 
: OWEN Hoe ~*~ Satin (wo!) & 
a 
: double pol_magnitude (struct complex struct z) 
i { 
return z.a; 
: } 
; double pol angle(struct complex struct z) 


i { 
i} 


return ZI 


' double (*real part tbl[]) (struct complex struct) = ( 

"rect real part, pol real part ); 

: double (*img part tbl[]) (struct complex struct) = { rect img part, 
P ]oxgL awe; [9e Jp 

' double (*magnitude tbl[]) (struct complex struct) = { 

i rect, magnitude, pol magnitude }; 

: double (*angle tbl[]) (struct complex struct) = ( rect angle, 


| pol angie 5 


Z) 


: #define real part(z) real_part_tbl[z.t] ( 
; #define imo jexewew (x4) aber jouer _Ielol || v4.4 16 ]] (4) 
: #define magnitude (z) magnitude_tbl[z.t] ( 
'#define angle(z) angle tbl[z.t](z) 


Z) 












































当 调 用 real_part (z ) 时 ， 用 类 型 字段 z.t 做 索引 ， 从 指针 数组 real_part_tbl 取出 相应 的 函数 指 
针 来 调用 ， DEP... else B .的 效果 ， 但 相 比 之 下 这 种 实现 更 好 ， 每 个 函数 都 只 做 一 
件 事情 ， 而 不 必用 if ... else . .兼顾 好 几 件 事情 ， 比如 rect _real_part 和 pol_real_part 各 做 
各 的 ， 互 相 独 立 ， 而 不 必 把 它们 的 代码 都 耦合 到 一 个 函数 中 。“ 低 耦合 ， 高 内 聚 ”(Low 

Coupling, High Cohesion) 是 程序 设计 的 条 基本 原则 ， 这 样 可 以 更 好 地 复 用 现 有 代码 ， 使 代 
Wo eee ten eae SING TUR ee Teele 





































































































































































































































































































下 一 页 
7. 指向 数组 的 指针 与 多 维 数组 9. 不 完全 类 型 和 复杂 声明 





9. 不 完全 类 型 和 复杂 声明 
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9. 不 完全 类 型 和 复杂 声明 


在 第 1 节 “ 复 合 数据 类 型 一 一 结构 体 ” 讲 过 算术 类 型 、 标 量 类 型 的 概念 ， 现 在 又 学 习 了 几 种 类 
型 ， 我 们 完整 地 总 结 一 下 C 语 言 的 类 型 。 下 图 出 自 [Standard C]。 

































































图 23.5. C 语 言 类 型 总 结 























function 


char 
types 


signed char 
unsigned char 
short 
























struct types i 
YP array types int 
unsigned int 


lon 
unsigned long 








plain bitfields 
Signed bitfields 
unsigned bitfields 


pointer to function types 
pointer to object types 
pointer to incomplete types 








incomplete struct types 
incomplete union types 
incomplete array types 





























C 语 言 的 类 型 分 为 函数 类 型 、 对 象 类 型 和 不 完全 类 型 三 大 类 。 对 象 类 型 又 分 为 标量 类 型 和 非 标 量 
类 型 。 指 针 类 型 属于 标量 类 型 ， 因 此 也 可 以 做 逻辑 与 、 或 、 非 运算 的 操作 数 
和 if、for、while 的 控制 表达 式 ，NvLL 指 针 表示 假 ， 非 Nui 指针 表示 真 。 不 完全 类 型 是 暂时 没 
有 完全 定义 好 的 类 型 ， 编 译 器 不 知道 这 种 类 型 该 占 儿 个 字 节 的 存储 空间 ， 例 如 : 
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当 编译 需 碰 到 第 一 个 声明 时 ， 认 为 stz 是 一 个 不 完全 类 型 ， 碰 到 第 二 个 声明 时 str 就 组 合成 完全 
类 型 了 ， 如 果 编 译 需 处 理 到 程序 文件 的 末尾 仍然 无 法 把 str 组 合成 一 个 完全 类 型 ， 就 会 报错 。 读 
者 可 能 会 想 ， 这 个 语法 有 什么 用 呢 ? 为 何不 在 第 一 次 声明 时 就 把 str 声 明成 完全 类 型 9 有 些 情况 
下 这 人 么 做 有 一 定 的 理由 ， 比 如 第 一 个 声明 是 写 在 头 文件 里 的 ， 第 二 个 声明 写 在 .c 文 件 里 ， 这 样 
如 采 要 改 数 组 长 度 ， 只 改 .c 文 件 就 行 了 ， 头 文件 可 以 不 用 改 。 



































不 完全 的 结构 体 类 型 有 重要 作用 : 
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SEE 
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struct s 和 和 struct t 各 有 一 个 指针 成 员 指 向 男 一 种 类 型 。 编 译 器 从 前 到 后 依次 处 理 ， 当 看 

到 struct s { struct t* pt; }; 时， 认为 struct t 古 一 个 不 完全 类 型 ，pt 是 一 个 指 问 不 完全 类 
型 的 指针 ， 尽 管 如 此 ， 这 个 指针 却 是 完全 类 型 ， 因 为 不 管 什 么 指针 都 占 4 个 字 市 存储 空间 ， 这 一 
点 很 明确 。 IRS a ts CA Ell struct t { struct s *ps; i, 这 时 struct t 有 了 完 整 的 定义 ， 
就 组 合成 一 个 完全 类 型 了 ，pt 的 类 型 就 组 合成 一 个 指向 完全 类 型 的 指针 。 由 于 struct s 在 前 面 
有 完整 的 定义 ， 所 以 struct s *ps; 也 定义 了 一 个 指向 完全 类 型 的 指针 。 


这 样 的 类 型 定义 是 错误 的 : 












































































































































































































































"C NEN 
Ghe3sbigiE. 1 (S 
ihe 


A erates en 
struct s os; 
ite 





























编译 器 看 到 struct S {.struct, t ot; Jj; 时 ， 认为 struct t 是 一 个 不 完全 类 型 ， 无 法 定义 成 

员 ot ， 因 为 不 知道 它 该 占 儿 个 字 广 。 所 以 结构 体 中 可 以 递归 地 定义 指针 成 员 ， 但 不 能 递归 地 定 
义 变 量 成 员 ， 你 可 以 设想 一 下 ， 假如 允许 递归 地 定义 变量 成 员 ， struct s ' 有 一 个 struct 

t, struct t 1 义 有 一 个 struct s, struct s X. 有 一 个 struct ts 这 就 成 了 一 个 无 穷 递 归 的 定 
义 。 


以 上 是 两 个 结构 体 构成 的 递归 和 定义， 一 个 结构 体 也 可 以 递归 定义 : 
(ue Ro mue up ud MN Sn uM M d Ed UEM de 
: char data[6]; 
Slane f el 
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ME a Lb EE | OB —7T struct S (Hl, 认为 struct s 是 一 个 不 完全 类 -E l 当 处 理 到 第 三 行 struct 
S *next; AY, 认为 next 是 个 指向 不 完全 类 型 的 指针 ， 当 处 理 到 piven 时 ， struct s 成 了 一 个 
完全 类 型 ，next 也 成 了 一 个 指向 完全 类 型 的 指针 。 Ta 文 样 的 结构 体 是 很 多 种 数据 结构 的 基本 
组 成 单元 ， 如 链表 、 二 又 树 等 ， 我 们 将 在 后 面 详细 介绍 。 下 图 示意 了 由 几 个 struct s 结 构 体 组 
成 的 链表 ， 这 些 结构 体 称 为 链表 的 节点 (Node) 。 



















































































































































































图 23.6. 链表 


























head 指 针 是 链表 的 头 指 针 ， 指 向 第 一 个 三 点 ， 每 个 节点 的 next 指 针 域 指向 下 一 个 市 点 ， 最 后 一 









































个 节点 的 next 指 针 域 为 NuLL， 在 图 1 用 0 表示 。 


可 以 想像 得 到 ， 如 果 把 指针 和 数组 、 函 数 、 结 构 体 层 层 组 合 起 来 可 以 构成 非常 复杂 的 类 型 ， 下 
面 看 几 个 复杂 的 声明 。 











































































































‘typedef void (*sighandler t) (int); 
: sighandler_t signal(int signum, sighandler_t handler); 























这 个 声明 来 自 signal (2)。 sighandler_t 是 一 个 函数 指针 ， È Prd TR] AY) ELE 市 一 个 参数 ， 返回 值 
为 void ， signalze “PAX, 它 带 两 个 参数 ， 个 int 人 参数 ， 一 个 sighandler 上 人 参数 ， 返回 值 也 
是 sighandler tZ AW. 如 果 把 这 两 行 合成 一 行 写 ， 就 是 : 














































































































在 分 析 复 杂 声 明 时 ， 要 借助 typedet 把 复杂 声明 分 解 成 几 种 基本 形式 : 


e T *p; ，p 是 指向 + 类 型 的 指针 。 


































































































e T a[]; ，a 是 由 T 类 型 的 元 素 组 成 的 数组 ， 但 有 一 个 例外 ， 如 果 a 是 函数 的 形 参 ， 则 相当 于 = 
*a; 
e Tl £(T2, T3...);, £2& TAM, RACE Ere. 13S, RRM er. 



















































“typedet int (*Tlqvord m3 O; 
VTi fp; 



































































ea mt a r2 DIOS 
i typedef T2 Tl(void *); 
EI ED 































i typedef int T3[10]; 
CeCe TI IA. 

: typedef T2 T1 (void *); 
: TI *fp; 

















一 个 int 数 组 ， 由 10 个 元 素 组 成 。 分 解 完毕 。 
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1. 本 章 的 预备 知识 
1.1. Strcpy-sstrnc 
1.2. malloc-free 
2. BRE BR 















































5. 回调 B ZW 
i 6. 可 : zu 参数 


我 们 在 第 6 EIEEE “HEE, PRISCA De Fe A PRC EY SEE ATT Mn P PRA, FET AA PR 
















































































数 之 前 ， 调 用 者 要 为 实现 者 提供 某 些 条 件 ， 在 函数 返回 时 ， 实 现 者 要 对 调用 者 尽 到 某 些 义务 。 
如 何 摘 述 这 个 如 约 呢 ? 首先 靠 函数 接口 来 描述 ， 即 函 数 名 ， 参 数 ， 返 回 值 ， 只 要 函数 和 参数 的 
名 字 起 得 合理 ， 参 数 和 返回 值 的 类 型 定 得 准确 ， 至 于 这 个 函数 怎么 用 ， 调 用 者 单 看 函数 接口 就 
能 猜 出 八 九 分 了。 通 数 接口 并 不 能 表达 函数 的 全 部 语义 ， 这 时 文档 就 起 了 重要 的 补充 作用 ， 矣 
数 的 文档 该 写 什 么 ， 怎 么 写 ，Man Page 为 我 们 做 了 很 好 的 榜样 。 


函数 接口 E v 有 五 花 八 门 的 用 法 ， 但 是 万 变 不 离 其 宗 ， 只 要 
d JE 那样 画图 分 析 ， 指针 的 任何 用 法 都 能 分 本 消 楚 ， 所 以 ， 如 果 上 一 章 

活 悟 出 来 ， 之 所 以 写 这 一 章 是 为 了 照顾 悟性 不 高 的 读 

见 的 模式 ， 对 于 每 种 模式 ， 一 方面 讲 函 数 接口 怎么 写 ， 另 一 










































































































































































































































































































































































方面 讲 函 ree 
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9. 不 完全 类 型 和 复杂 声明 1. 本 章 的 预备 知识 





1. 本 章 的 预备 知识 





E 第 24 章 函数 接口 
1. 本 章 的 预备 知识 























这 一 节 介 绍 本 草 的 范例 代码 要 用 的 几 个 C 标 准 库 函 数 。 我 们 先 体会 一 下 这 几 个 函数 的 接口 是 怎么 
设计 的 ，Man Page 是 怎么 写 的 。 其 它 常 用 的 C 标 准 库 函数 将 在 下 一 章 介 绍 。 






































1.1. stropy 5 strnepy 


















































从 现在 开始 我 们 要 用 到 很 多 库 函 数 ， 在 学 习 每 个 库 函 数 时 一 定 要 看 Man Page. Man Page 随 时 
都 在 我 们 手边 ， 想 查 什么 只 要 痪 一 个 命令 就 行 ， 然 而 很 多 初学 者 就 是 不 喜欢 看 Man Page, TH 
满 世界 去 查 书 、 查 资料 ， 也 不 愿意 看 Man Page。 据 我 分 析 原 因 有 三 : 


1. 英文 不 好 。 那 还 是 先 学 好 了 英文 再 学 编程 吧 ， 和 否则 即使 你 把 这 本 书 都 学 透 了 也 一 样 无 法 胜 
任 开发 工作 ， 因 为 你 没有 进一步 学 习 的 能 力 。 


2. Man Page 的 语言 不 够 友好 。Man Page 不 像 本 书 这 样 由 浅 入 深 地 讲解 ， 而 是 平 铺 直 叙 ， 不 
过 看 习惯 了 就 好 了 ， 每 个 Man Page 都 不 长 ， 多 看 儿 遍 自然 可 以 抓 住 重点 ， 理 清 头绪 。 本 
节 分 析 一 个 例子 ， 帮 助 读者 把 握 Man Page 的 语言 特点 。 


3. Man Page 通 党 没有 例子 。 描 述 一 个 函数 怎么 用 ， 一 靠 接 口 ， 二 靠 文档 ， 而 不 是 靠 例子 。 
沙 数 的 用 法 无 非 是 本 草 所 总 结 的 几 种 模式 ， 只 要 把 本 草 学 透 了 ， 你 就 不 需要 每 个 函数 都 得 
有 个 例子 教 你 怎么 用 了 。 


AZ, Man Page 是 一 定 要 看 的 ， 一 开始 看 不 懂 硬 着 头皮 也 要 看 ， 为 了 鼓励 读者 看 Man Page, 
本 书 不 会 像 [K&R] 那 样 把 库 函 数 总 结 成 一 个 附录 附 在 书后 面 。 现 在 我 们 来 分 析 strcpy (3) 。 
























































































































































































































































































































































图 24.1. strcpy (3) 
STRCPY (3) Linux Programmer’s Manual STRCPY (3) 


NAME 
strcpy, strncpy - copy a string 


SYNOPSIS 
#include <string.h> 


char *strcpy(char *dest, const char *src); 


char *strncpy(char *dest, const char *src, size_t n); 


这 个 Man Page 描 述 了 两 个 函数 ， stzcpy 和 strncpy， 敲 命令 man strcpy 或 者 man strncpyAbH] 以 
看 到 这 个 Man Page。 这 两 个 函数 的 作用 是 把 一 个 字符 串 拷 贝 给 男 一 个 字符 串 。SYNOPSIS 部 分 
给 出 了 这 两 个 函数 的 原型 ， 以 及 要 用 这 些 函 数 需 要 包含 哪些 头 文 件 。 参 数 aest 、src 和 n 都 加 了 

下 划 线 ， 有 时 候 并 不 想 从 头 到 尾 阅读 整个 Man Page, ， 而 是 想 查 一 下 某 个 参数 的 含义 ， 通 过 下 划 
线 和 参数 名 就 能 很 快 找到 你 关心 的 部 分 。 


dest 表 示 Destination ，src 表 示 Source ， 看 名 字 就 能 猜 到 是 把 src 所 指向 的 字符 串 揽 贝 到 aest 所 























































































































指向 的 内 存 空间 。 这 一 点 从 两 个 参数 的 类 型 也 能 看 出 来 ，aest 是 char * 型 的 ， 而 src 是 const 
char * 型 的 ， 说 明 src 所 指向 的 内 存 空间 在 函数 中 只 能 读 不 能 改写 ， 而 aest 所 指向 的 内 存 空间 在 
函数 中 是 要 改写 的 ， 显 然 改写 的 目的 是 当 函 数 返 回 后 调用 者 可 以 读 取 改 写 的 结果 。 因 此 可 以 猜 
到 strcpy 函 数 是 这 样 用 的 : 

















































































































| char buf[10]; 
i strcpy (buf, "hello"); 
|! printf (buf); 
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图 24.2. strcpy (3) 


DESCRIPTION 
The strcpy() function copies the string pointed to by src, including 
the terminating null byte ('X0'), to the buffer pointed to by dest. 
The strings may not overlap, and the destination string dest must be 
large enough to receive the copy. 


The strncpy() function is similar, except that at most n bytes of src 
are copied. Warning: If there is no null byte among the first n bytes 
of src, the string placed in dest will not be null terminated. 


If the length of src is less than n, strncpy() pads the remainder of 
dest with null bytes. 


A simple implementation of strncpy() might be: 


char* 
strncpy(char *dest, const char *src, size t n){ 
size t i; 
for (120;i«n & src(i] != '\O' ; i++) 
dest[i] = src[il; 
for ( ;i<n ; i++) 
dest[i] = '\0'; 


return dest; 












































在 文档 1 强调 了 strcpy 在 拷贝 字符 串 时 会 把 结尾 的 改 o' 也 搁 到 aest ; 因此 保证 了 dest 1 是 
以 0' 结 尾 的 字符 串 。 但 另外 一 个 要 注意 的 问题 是 ，strcpy 只 知道 src 字 符 串 的 首 地 址 ， 不 知道 
长 度 ， 它 会 一 直 拷 贝 到 心 o' 为 止 ， 所 以 aest 所 指向 的 内 存 空间 要 足够 大 ， 和 否则 有 可 能 写 越界 ， 
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| char buf[10]; 
i strcpy (buf, "hello world"); 

















WARBCA Esc Arta AAA ES AIA Not Zü E, UE RIBEBSBU, DIA: 














! char buf[10] = "abcdefghij", str[4] = "hell"; 
i strcpy(buf, str); 




















ALA stropy KAI SEL BESTE PRICE O CIE T Als rc^ 15 8 RKE Mest 内 存 空间 的 大 小 ， Bir 
以 “确保 不 会 写 越界 "应 该 是 调用 者 的 责任 ， 调 用 者 提供 的 aest 参 数 应 该 指向 足够 大 的 内 存 空 






























































lH], “Wit A Aa oe, Ia ee HE sec BSH Al A FR \ 0 ' 结 


FÉ. 


此 外 ， 文 档 了 srcfildest 所 指向 的 内 存 空间 不 能 有 重合 。 几 是 有 指针 参数 的 C 标 准 库 函 
数 基 本 上 都 有 这 条 要 求 ， 每 个 指针 参数 所 指向 的 内 存 空间 互 不 重合 ， 例 如 这 样 调用 是 不 允许 
的 : 


































































































| char buf[10] = "hello"; 
i strcpy (buf, buf+1); 


























strncpy 的 参数 n 指 定 最 多 从 src 148 Wn 个 字 节 到 aest ic TR] T UR, WIRES US NO' wt HR, 
MRA NENDE EEA o, BABER, 调用 者 负责 提供 适当 的 n 值 ， 以 确保 读 写 不 
会 越界 ， 比 如 让 n 的 值 等 于 gest 所 指向 的 内 存 空间 的 大 小 : 






















































































‘ char buf[10]; 
: strncpy (buf, "hello world", sizeof (buf)); 




















然而 这 意味 着 什么 呢 ? 文 档 中 特别 用 了 Warning 指 出 ， 这 意味 着 aest 有 可 能 不 是 以 '\0' 结 尾 
的 。 例 如 上 面 的 调用 ， 虽 然 把 "nello worlia" 截 断 到 10 个 字符 找 贝 至 buf 中， 但 put 不 是 以 ' 履 0' 结 
BW, WRA printf (bute) 就 会 读 越界 。 如 果 你 需要 确保 aest 以 '\0' 结 束 ， 可 以 这 么 调用 : 




























































































| char buf[10]; 
i strncpy (buf, "hello world", sizeof (buf)); 
bu sizer Gwe) =L] = V NUS 














JD DUE WR sro FIREM I NEn SFE, ABAD DPT RES 
"NQU, 但 是 正如 上 面 所 述 ， 这 并 不 保证 aest 一 定 以 ， NO! 结束 ， 当 src 字 符 串 的 长 度 大 于 n 时 ， 
REEPERI. vor, HEPA YZ \o eE. stropy co 的 文档 已 经 相当 友好 了 ,为 了 

帮助 理解 ，3 还 给 出 一 个 strncpy 的 简单 实现 。 
























































图 24.3. strcpy (3) 


RETURN VALUE 
The strcpy() and strncpy() functions return a pointer to the destina- 
tion string dest. 


CONFORMING TO 
SVr4, 4.3BSD, C89, C99. 


NOTES 
Some programmers consider strncpy() to be inefficient and error prone. 
If the programmer knows (i.e., includes code to test!) that the size 
of dest is greater than the length of src, then strcpy() can be used. 


If there is no terminating null byte in the first n characters of src, 
strncpy() produces an unterminated string in dest. Programmers often 
prevent this mistake by forcing termination as follows: 


strncpy(buf, str, n); 
if (n > 0) 
buf[n - 1]= '*0'; 

















函数 的 Man Page 都 有 一 部 分 专门 讲 返 回 值 的 。 这 两 个 函数 的 返回 值 都 是 aest 指 针 。 可 是 为 什么 
要 返回 aest 指 针 呢 ?aest 指 针 本 来 就 是 调用 者 传 过 去 的 ， 再 返回 一 遍 aest 指 针 并 没有 提供 任何 
















































































有 用 的 信息 。 之 所 以 这 么 规定 是 为 了 把 函数 调用 当 作 一 个 指针 类 型 的 表达 式 使 用 ， 比 























如 printf (strcpy (buf, "hello")), 一 举 两 得 ， 如 果 strcpy 的 返回 值 是 void 就 没有 这 人 么 方便 了 o 











CONFORMING TO 部 分 描述 了 这 个 函数 是 遵照 哪些 标准 实现 的 。 stzcpy 和 strncpy 是 C 标 准 库 函 
数 ， cA 以 后 我 们 还 会 看 到 1ibc 中 有 些 函 数 属于 POSIX 标 准 但 并 不 属于 C 标 准 ， 








例如 write (2 o 



































NOTES 部 分 给 出 一 些 提 示 信 A o 这 里 指出 如 何 确 保 strncpy 的 ae st 以 VQ 25 FÉ > 和 我 们 上 面 给 

















出 的 代码 类 似 ， 但 由 于 n 是 个 变量 ， 在 执行 puf[n - 11= "\0'; 之 前 先 检查 一 下 n 是 否 大 于 0， 如 





























果 n 不 大 于 0，puf tn - 41 就 访问 越界 了 ， 所 以 要 避免 。 








图 24.4. strcpy (3) 


BUGS 


If the destination string of a strcpy() is not large enough (that is, 
if the programmer was stupid or lazy, and failed to check the size 


before copying) then anything might happen. Overflowing fixed 
strings is a favorite cracker technique. 


SEE ALSO 


length 


bcopy(3), memccpy(3), memcpy(3), memmove(3), wcscpy(3), wcsncpy(3) 


COLOPHON 


This page is part of release 3.01 of the Linux man-pages project. A 
description of the project, and information about reporting bugs, can 


be found at http://www.kernel.org/doc/man-pages/. 


GNU 2007-06-15 STRCPY (3) 


























BUGS ÈLA HH T (eke eq BCH A 6 引起 的 Bug， 这 部 分 一 定 要 仔细 看 。 用 strcpy 比 




















用 strncpy 更 加 不 安全 > 如 A Va) FA stzcpy 之 前 不 仔细 检查 src 字 符 串 的 长 度 就 有 H] 能 




















是 一 个 很 常见 的 错误 ， 例 如 : 


! void foo(char *str) 


Glave Jonette EOE 
tesis yao i S de T 





写 越界 ， 这 




















str 所 指向 的 字符 串 有 可 能 超过 10 个 字符 而 导致 写 越界 ， 在 第 4 节 “ 段 错误 "我们 看 到 过 ， 这 种 写 
越界 可 能 当时 不 出 错 ， 而 在 函数 返回 时 出 现 段 错误 ， 原因 是 写 越界 虱 盖 了 保存 在 栈 帧 上 的 返回 
地 址 ， 浮 数 返 回 时 跳 转 到 非法 地 址 ， 因 而 出 错 。 像 euf 这 种 由 调用 者 分 配 并 传 给 函数 读 或 写 的 一 
段 内 存 通常 称 为 缓冲 区 (Buffer) ， 绥 冲 区 写 越 界 的 错误 称 为 缓冲 区 溢出 (Buffer Overflow) 。 

如 果 只 是 出 现 段 错误 那 还 不 算 严 重 ， 更 "ERA P DC rh Bug 经 常 被 恶意 用 户 利用 ， 使 函数 返 
回 时 跳 转 到 一 个 事先 设 好 的 地 址 ， Y J 事先 设 好 的 指 今 如 果 设 计 得 巧妙 甚至 可 以 启动 一 






































































































































个 Shell， 然 后 随心 所 欲 执行 任何 命令 ， 可 起 而 知 ， 如 果 一 个 用 root 权 限 执行 的 程序 存在 这 样 






































的 Bug ， 被 攻陷 了 ， 后 末 将 很 严重 。 至 于 怎样 巧妙 设计 和 攻陷 一 个 有 缓冲 区 溢出 Bug 的 程序 ， 有 





兴趣 的 读者 可 以 参考 [SmashStack]。 





习题 














1、 上 自己 实现 一 个 strcpy 冰 数 ， 尺 可 能 简洁 ， 你 能 用 三 行 代码 写 出 浮 数 体 吗 ? 















































2、 编 一 个 函数 ， 输 入 一 个 字符 串 ， 要 求 做 一 个 新 字符 串 ， 把 其 中 所 有 的 一 个 或 多 个 连 








续 的 空白 





























字符 都 压缩 为 一 个 空格 。 这 里 所 说 的 空白 包括 空格 、\、\A' 、N。 例 如 原来 的 字符 串 是 : 
































ok? 


file system 
: uttered words ok ok ? 
i end. 











空 日 之 后 就 是 : 




































































各 项 参数 和 返回 值 的 含义 和 strncpy 类 似 。 完 成 之 后 ， 为 目 己 实现 的 函数 写 一 个 Man Page» 


1.2. malloc- free 






































程序 中 需要 动态 分 配 一 块 内 存 时 怎么 办 呢 ? 可 以 像 上 一 市 那样 定义 一 个 绥 冲 区 数组 。 这 种 方法 
不 够 灵活 ，C89 要 求 定义 的 数组 是 固定 长 度 的 ， 而 程序 往往 在 运行 时 才 知 道 要 动态 分 配 多 大 的 内 
存 ， 例 如 : 







































































; void foo (char *str, int n) 

EA 
: Glaewe loe || 2 1) 2 

strncpy (buf, str, n); 




















n 是 由 参数 传 进 来 的 ， 事 先 不 知道 是 多 少 ， J pd 在 第 1 节 “ 数 组 的 基本 操 

作 ” 讲 过 C99 引 入 VLA 特 性 ， 可 以 定义 char puf[n+1] = ， 这 样 可 确保 buf 是 以 '\0' 结 尾 的 。 
但 即使 用 VLA 仍 然 不 够 灵活 ，VLA 是 EE DESI RU, E 数 返回 时 就 要 释放 ， 如 果 我 们 希望 动 
态 分 配 一 块 全 局 的 内 存 空间 ， 在 各 函数 中 都 可 以 访问 呢 ? 由 于 全 局 数组 无 法 定义 成 VLA ， 所 以 
仍然 不 能 满足 要 求 。 


实在 第 5 节 “虚拟 内 在 管 理 " 提 过 ， 进 程 有 一 个 堆 空 间 ，C 标 准 库 函 数 malloc 可 以 在 堆 空 间 动 态 
分 配 内 存 ， 蔬 的 底层 通过 brk 系 统 调用 向 操作 系统 申请 内 存 。 动态 分 配 的 内 存 用 完 之 后 可 以 

用 tree 释放 ， 更 准确 地 说 是 归还 给 malioc， 这 样 下 次 调用 malloc 时 这 块 内 存 可 以 再 次 被 分 配 。 本 
方 学 习 这 两 个 函数 的 用 法 和 工作 原理 。 


i #include <stdlib.h> 















































































































































































































































: void *malloc(size t siz 


























返回 值 : 成 功 返 回 所 分 配 内 存 空 irent, 出 错 返 回 NULL 


| void free(void *ptr); 























malloc 的 参数 size 表 示 要 分 配 的 字 市 数 ， 如 果 分 配 失败 〈 可 能 是 由 于 系统 内 存 耗 尽 ) 则 返 

回 NuLL。 由 于 mal1loc 洱 数 不 知 道 用户 拿 到 这 块 内 存 要 存放 什么 类 型 的 数据 ， 所 以 返回 通用 指 
ftvoia *， 用 户 程 序 可 以 转换 成 其 它 类 型 的 指针 再 访问 这 块 内 存 。malloc 函 数 保证 aaa 
针 所 指向 的 地 址 满足 系统 的 对 齐 要求 ， 例 如 在 32 位 平台 上 返回 的 指针 一 定 对 齐 到 4 字 节 边界 ， 以 
保证 用 户 程序 把 它 转换 成 任何 类 型 的 指针 都 能 用 。 

















































































































































































































动态 分 配 的 内 存 


























和 完 之 后 可 以 





日 Free 释放 掉 ， 








地 址 。 举 例如 下 : 


例 24.1. malloc 和 free 


i #include <stdio.h> 
i ganelude <stdlib.h> 
: #include <string.h> 


"bypeder struck 4 

| int number; 
| char *msg; 
sc inti, 35,2 


| int main(void) 


i { 
i unit t *p = malloc(sizeof(unit t)); 


if (p == NULL) ( 
printf("out of memory\n"); 
exit(1); 

} 

p->number = 3; 


p->msg = malloc(20); 
strcpy(p-»msg, "Hello world!"); 


| printf ("number: %d\nmsg: %s\n", 
: >msg); 
: free (p->msg); 

free (p); 

p = NULL; 


return 0; 


zi HR free 的 参数 正 是 先前 nalloc 返 


p->number, 


回 的 内 存 块 首 





p- 











上 面 的 例子 只 有 
种 
空间 


月 

















于 这 个 程序 要 注意 以 下 几 点 : 











; 这 一 句 ， 等 号 右边 是 v 
转换 ， 我 们 讲 过 


e unit t *p = malloc(sizeof (unit t)) 


是 unit_t * 类 型 ， 编 译 需 会 做 隐 式 类 天 


以 相互 隐 式 转换 。 
里 然 内 存 耗 尽 是 很 不 党 









































ns 
BE 














见 的 错误 ， 但 写 程序 要 规范 ， 























void x2 














oid x27 





LL ， 等 号 左边 
和 任何 指针 类 型 之 间 可 


H 





















































malloc 之 后 应 该 判断 是 否 成 功 。 以 后 




















要 学 习 的 大 部 分 系统 函 
断 是 否 成 功 。 


数 都 有 成 功 的 返 回 值 和 失败 的 返回 值 ， 



































每 次 调用 系统 函数 都 应 该 判 





free ( 





;之 后 ，p 所 指 的 内 存 空 


间 是 归 


还 了 ,但 是 p 的 值 并 没有 变 ， 





因为 从 free 的 函数 接 














E 


s 间 已 经 不 属于 
p) ;之 后 


手动 置 p 
民 先 free (p), gx J EFT 








来 看 棋 


指 


UM (p-»msg) 
问 内 存 了 





本 就 没 法 改变 p 的 值 ，p 现 在 指 
针 ， 为 避免 出 现 野 指针 ， 我 们 应 该 


， 再 free (p o 如 


可 的 内 存 空 


MET NS 
Tt. free( 















































H 
Z| 











H 


个 简单 的 顺序 控制 流程 ， 分 配 内 存 ， 
free 释 放 内 存 也 可 以 ， 对 为 程序 























赋值 ， 打 印 ， 























1% 


况 下 即使 不 

















退出 时 整个 进程 地 址 空 














用 户 ， 换 名 话说 ，p 成 了 野 


NULL; o 








中 针 ， 就 不 能 再 通过 p->msg 访 





释放 内 存 ， 退 出 程序 。 这 
x 间 都 会 释放 ， 包 括 堆 












































]， 该 进程 占用 的 所 有 内 存 都 会 归还 给 操作 系统 。 但 如 果 一 个 程 请 


， 并 且 在 循环 或 递归 中 调用 malloc 分 配 内 存 ， 则 必 




















民 务 器 


器 程序 ) 
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d 

















次 ， 否 则 每 次 循环 都 分 配 内 存 ， 分 配 完 了 又 不 释放 ， 就 会 





须 有 free 与 之 配对 ， 














长 年 索 月 运行 (例如 网 络 
分 配 一 次 


会 慢 慢 耗 尽 系统 内 存 ， 这 种 
































称 为 内 存 泄漏 (Memory Leak) 。 另 外 ，malloc 返 回 的 指 
lue 文 块 内 存 ， 如 果 这 个 指针 丢失 了 ， 


Ef 


























就 没有 办 法 free 这 





Hfl AXE 





wp, RARER 
这 块 内 存 了 ， 也 会 造成 内 存 














泄漏 。 例 如 : 


| void foo (void) 


char *p = malloc(10); 




















foo PRA E AY Ey 部 变量 p 的 内 存 空 
没 法 释放 了 。 内 存 泄漏 的 Bug 很 难 找到 ， 
存 泄漏 并 不 影响 程序 的 正确 运行 ， 
响 当 前 进程 ， 而 且 把 整个 系统 都 拖 得 很 慢 。 


关于 malloc 和 free 还 有 一 些 特殊 EU 
指针 ， 这 个 指针 也 可 以 传 给 free 释 放 ， 
的 ， 不 做 任何 事情 ， 















































malloc ( 





















































Sa], EArt 
因为 它 不 会 像 访问 越界 一 样 导 致 程序 运行 错误 ， 


大 量 的 内 存 泄漏 会 使 


日 是 不 能 通过 这 个 指针 
" 日 是 free 一 个 野 指 针 是 不 合法 的 ， 例 








旨 疝 的 内 存 地 址 就 丢失 了 , 


这 10 个 字 节 也 就 























少量 内 








系统 内 存 紧缺 ， 导 致 频繁 换 页 ， 不 仅 影 


o 这 种 调用 也 是 合法 的 ， 也 会 返回 一 个 非 wurz 的 























连 着 调用 两 次 free (o ， 则 后 一 

















| K&R] 的 8. 7 节 给 出 了 malloc 和 free 的 简 [H] 单 实现 > 





那 段 代码 会 有 点 困难 ， 我 再 做 一 些 简化 ， 
理 。lipc 的 实现 比 这 : 



































图 示 如 下 ， 
复杂 得 多 ， 但 基本 工作 原理 也 是 如 此 。 读 者 只 : 


次 调用 会 产生 运行 时 错误 。 





访问 内 存 。 
Til ey maii 








free (NULL) 也 是 合法 
oc 返回 一 个 指针 bp ， 然 后 






















































































就 很 容易 














图 24.5. 简单 的 malloc 和 free 实现 


分 析 在 使 用 malloc 和 和 free 时 过 到 的 各 种 Bug ] J 














基于 环形 链表 。 目 前 读者 还 没有 学 习 链 表 ， 看 
H 的 是 让 读者 理解 mal ] oc 和 free 的 工作 原 
理解 了 基本 工作 原理 ， 











a break 高 地 址 


pl=malloc(8); 


pl 


break 







p2=malloc( 16); 


free(p1); 


p3=malloc(16); 


free(p3); 




















AL re WHER malloc HN aA ER, RER RIMES malloc, WHEE DAs NU 
给 用 户 的 内 存 块 ， 也 可 能 不 属于 当前 进程 ，Break 之 上 的 地 址 不 属于 当前 进程 ， 需 要 通过 brk 系 






























































统 调用 癌 内 核 申 请 。 每 个 内 存 块 开头 都 有 一 个 头 节 点 ， 里 面 有 一 个 指针 字段 和 一 个 长 度 字 段 ， 
指针 字段 把 所 有 空闲 块 的 头 节 点 串 在 一 起 ， 组 成 一 个 环形 链表 ， 长 度 字 段 记 录 着 头 节 点 和 后 面 
的 内 存 块 加 起 来 一 共有 多 长 ， 以 8 字 市 为 单位 (也 就 是 以 头 节点 的 长 度 为 单位 ) 。 


1. 一 开始 堆 空 间 由 一 个 空闲 块 组 成 ， 长 度 为 7x8=56 字 和 ， 除 头 节 点 之 外 的 长 度 为 48 字 市。 


2. 调用 malloc 分 配 8 个 字 节 ， 要 在 这 个 空闲 块 的 末尾 截 出 16 个 字 节 ， 其 中 新 的 头 节 点 占 了 8 个 
字 节 ， 另 外 8 个 字 市 返回 给 用 户 使 用 ， 注 意 返 回 的 指针 pi 指 疝 头 节 点 后 面 的 内 存 块 。 


3. 又 调用 malloc 分 配 16 个 字 节 ， 又 在 空闲 块 的 末尾 规 出 24 个 字 节 ， 步 又 和 上 一 步 类 似 。 


4. 调用 free 释 放 p1i 所 指向 的 内 存 块 ， 内 存 块 (包括 头 节点 在 内 ) 归还 给 了 malloc， 现 

在 malloc 管 理 着 两 块 不 连续 的 内 存 ， 用 环形 链表 串 起 来 。 注 意 这 时 pl 成 了 时 指针 ， 指 向 不 
盟 于 用 户 的 内 存 ，pi 所 指向 的 内 存 地 址 在 Break 之 下 ， 是 属于 当前 进程 的 ， 所 以 访问 pl 时 
不 会 出 现 段 错 误 ， 但 在 访问 pi 时 这 段 内 存 可 能 已 经 被 nalloc 再 次 分 配 出 去 了 ， 可 能 会 读 到 
意外 改写 数据 。 另 外 注意 ， 此 时 如 果 通 过 pz 向 右 写 越界 ， 有 可 能 覆盖 右边 的 头 节 点 ， 从 而 
破坏 malloc 管 理 的 环形 链表 ，malloc 就 无 法 从 一 个 空闲 块 的 指针 字段 找到 下 一 个 空闲 块 
了 ， 找 到 哪 去 都 不 一 定 ， 全 乱 套 了 。 


5. 调用 malloc 分 配 16 个 字 节 ， 现 在 虽然 有 两 个 空闲 块 ， 各 有 8 个 字 节 可 分 配 ， 但 是 这 两 块 不 
连续 ，malloc 只 好 通过 brk 系 统 调用 抬 高 Break， 获 得 新 的 内 存 空 间 。 在 [K&R] 的 实现 中 ， 
FEU TE FA sork KZH HAH 1024x8=8192 F, fELinux RAE sork MB ZEB Eo ex LH 
的 ， 这 里 为 了 画图 方便 ， 我 们 假设 每 次 调用 sbrk 申 请 32 个 字 节 ， 建 立 一 个 新 的 空闲 块 。 


6. 新 申请 的 空 闪 块 和 前 一 个 空 几 块 连续 ， 因 此 可 以 合并 成 一 个 。 在 能 合并 时 要 尽量 合并 ， 以 
免 空 帮 块 越 制 越 小 ， 无 法 满足 大 的 分 配 请 求 。 


7. 在 合并 后 的 这 个 空闲 块 末尾 截 出 24 个 字 节 ， 新 的 头 节点 占 8 个 字 节 ， 男 外 16 个 字 节 返回 给 
rt 





















































































































































ao 





































































































































































































































































































































































































8. 调用 free (p3) 释放 这 个 内 存 块 ， 由 于 它 和 前 一 个 空闲 块 连续 ， 又 重新 合并 成 一 个 空闲 块 。 
注意 ，Break 只 能 抬 高 而 不 能 降低 ， 从 内 核 申 请 到 的 内 存 以 后 都 归 malloc 管 了 ， 即 使 调 
用 free 也 不 会 还 给 内 核 o 
































习题 


1、 小 练习 : 编写 一 个 小 程序 让 它 耗 尽 系统 内 存 。 观 察 一 下 ， 分 配 了 多 少 内 存 后 才 会 出 现 分 配 失 
败 ? 内 存 耗 尽 之 后 会 怎么 样 ? 会 不 会 死机 ? 

















下 一 页 





2. 传 入 参数 与 传 出 参数 


2. 传人 参数 与 传 出 参数 





第 24 章 函数 接口 
2. 传 入 参数 与 传 出 参数 


如 果 函 数 接口 有 指针 参数 ， 既 可 以 把 指针 所 指向 的 数据 传 给 函数 使 用 ( 称 为 传 入 参数 ) ， 

以 由 函数 填充 指针 所 指 的 内 存 空间 ， 传 回 给 调用 者 使 用 ( 称 为 传 出 参数 ) ， n nce 
数 是 传 入 参数 ， dest 参数 是 传 出 参数 。 有 些 函 数 的 指针 参数 同时 担当 了 这 两 种 ] 色 ， 

如 select (2 ) 的 fa_set * 参 数 ， 既是 专 入 参数 又 是 传 出 参数 ， 这 称 为 Value- result Zi . 








































































































X 24.1. 传 入 参数 示例 : void func(const unit_t *p); 





. 分 配 e 所 指 的 内 存 空间 
. 在 bp 所 指 的 内 存 空间 中 保存 数据 . 规定 指针 参数 的 类 


型 unit t * 


.调用 函数 . 读 取 p 所 指 的 内 存 空 


. 由 于 有 const 限 定 符 ， 调 用 者 可 以 确信 所 指 的 内 Ij] 
存 空间 不 会 被 改变 







































































想 一 想 ， TUR A RBG Fvoia func(const int p); 这 里 的 const 有 意义 吗 ? 











E 24.2. 传 出 参数 示例 : void func(unit t *p); 


分 配 e 所 指 的 内 存 空间 
1. AEF 
2. dal eR 
2. 在 pe 所 指 的 内 存 空间 
3. 读 取 pb 所 指 的 内 存 空间 















































分 配 p 所 指 的 内 存 空间 








1. 规定 指针 参数 的 类 型 unit_t * 


2. 读 取 p 所 指 的 内 存 空间 














2. 在 p 所 指 的 内 存 空 间 保存 数据 











3. DAF ERR 
4. 读 取 p 所 指 的 内 存 空间 


3. 改写 p 所 指 的 内 存 空间 
































说 明 是 哪 种 参数 。 











由 于 传 出 参数 和 Value-result 参 数 的 函数 接口 完全 相同 ， 应 该 在 文档 
以 下 是 一 个 传 出 参数 的 完整 例子 : 








例 24.2. 传 出 参数 


: /* populator.h */ 
| #ifndef POPULATOR H 
: #define POPULATOR H 





: typedef struct { 
: int number; 
: char msg[20]; 
P] me 


: extern Wael xeu, nun EUN En 
: #endif 

MU spopulatorac +/ 

"isnelude <string.h> 

: #include "populator.h" 


;void set unit (unit 七 5p) 


if 


ic (o == NULL) 
return; /* ignore NULL parameter */ 
p->number = 3; 


strcpy(p-»msg, "Hello World!"); 


: /* main.c */ 
: #include <stdio.h> 
: #include "populator.h" 


| int main (void) 
E 


vin de WR 


set unit(&u); 
printf("number: %d\nmsg: %s\n", u.number, u.msg); 
return 0; 























很 多 系统 函数 对 于 指针 参数 是 NuLL 的 情况 有 特殊 规定 : 如 果 传 入 参数 是 wurrz 表 示 取 缺 省 值 ， 例 
Ulpthread_create (3) Hpthread_attr_t BR 也 可 能 表示 不 做 特别 处 理 ， 例如 free 的 参数 ; 
如 果 传 出 参数 是 NuLL 表 示 调 用 者 不 需要 传 出 值 ， 例 如 time (2) 的 参数 。 这 些 特殊 规定 应 该 在 文档 


Fa 
' 写 清楚 。 














































































































=a =a 


1. 本 章 的 预备 知识 3. 两 层 指针 的 参数 





3. 两 层 指针 的 参数 





第 24 章 函数 接口 


3. 两 屋 指 针 的 参 交 


两 层 指 针 也 是 指针 ， 同 样 可 以 表示 传 入 参数 、 传 出 参数 或 者 Value-result 参 数 ， 只 不 过 该 参数 所 
指 的 内 存 空间 应 该 解释 成 一 个 指针 变量 。 用 两 层 指针 做 传 出 参数 的 系统 函数 也 很 常见 ， 比 
如 pthread_join (3) 的 void ** 参 数 。 下 面 看 个 简单 的 例子 。 













































































| 














例 24.3. 两 层 指针 做 传 出 参数 








/eae 
: #ifndef REDIRECT_PTR_H 
: #define REDIRECT_PTR_H 


i extern void get_a_day(const char **); 


i fendif 






































想 一 一 想 ， 这 里 的 参数 指针 是 const char **, Ai const hI REIT, 却 不 是 传人 参数 而 
是 传 出 参数 ， 为 什么 ”如 有 果 是 传人 参数 应 该 怎么 表示 ? 














: /* redirect ptr.c */ 
auget deir Soece em 


| SEaedte const char *msg[] = {"Sunday", "Monday", 
; "Tuesday", "Wednesday", 
: NSS ;WI ee 
; "Saturday"}; 

: void get_a_day(const char **pp) 

: { 


Starcke sigue mela (P 
| *pp = msg[i$7]; 
E 

B 


i7* maim E */ 
| #include <stdio.h> 
: #include "redirect_ptr.h" 


i int main (void) 

P 

const char *firstday = NULL; 
const char *secondday = NULL; 

get a day(&firstday); 

get a day(&secondday); 

printf ("%s\t%s\n", firstday, secondday); 
return 0; 






































两 层 指针 作为 传 出 参数 还 有 一 种 特别 的 用 法 ， 可 以 在 函数 中 分 配 内 存 ， 调 用 者 通过 传 出 参数 取 
得 指向 该 内 存 的 指针 ， 比如 getadqrinfo(3) 的 struct addrinfo BA « 一 般 来 说 ， 实现 一 个 分 
配 内 存 的 函数 就 要 实现 一 个 释放 内 存 的 函数 ， 所 以 getagarinfo(3) 有 一 个 对 应 


的 freeaddrinfo (3) AŽ. 


















































K 24.4. 通过 参数 分 配 内 存 示 例 : void alloc_unit (unit_t **pp); void 


free_unit (unit_t *p); 


配 pp 所 指 的 指针 变量 的 空间 
al1oc_unit 分 配 内 存 


. 读 取 pp 所 指 的 指针 变量 ， 通 过 后 
者 使 用 alloc_unit 分 配 的 内 存 


Hfree unit PEMA TE 



















































































UU * para alliocator hk, +/ 
under PARA ALLOCATOR H 
: #define PARA ALLOCATOR H 

















Cbvpedef struck 4 
: int number; 
i char *msg; 

nu ULE to 


: free_unit 释 放 在 alloc_unit 

















. 规定 指针 参数 的 类 型 unit_t x* 


alloc_unit 分 配 unit_t 的 内 存 并 初 











始 化 ， 为 pp 所 指 的 指针 变量 赋值 









































的 内 存 


| extern wea Eu ee handle (Wo ie dE wow) pg 
i extern void free unit(unit t *); 


i fendif 


dx para aiblioeatOor.c «*/ 

: finclude <stdio.h> 
‘#inelude <string.h> 

i finclude <stdlib.h> 

i #include "para allocator.h" 





‘void alloc_unit (unit t **pp) 


E 


p->msg = malloc(20); 


*pp = p; 


i void free unit(unit t *p) 


free (p->msg) ; 
free (p); 


i /* main.c */ 
: #include <stdio.h> 
: #include "para allocator.h" 


ne main (void) 


unit t *p = malloc(sizeof(unit t)); 


if(p == NULL) { 
printf("out of memory\n"); 
exit (1); 

} 

p->number = 3; 


strcpy (p->msg, "Hello World!"); 





unit_t *p = NULL; 


alloc_unit (&p); 
printf ("number: %d\nmsg: %s\n", p-»number, p- 
: 2msg) ; 
: free unit (p); 
p = NULL; 
return 0; 
































下 ， 为 什么 在 main 通 数 中 不 能 直接 调用 free (p) 释放 内 存 ， 而 要 调用 free_unit (p) ? 为 什 
么 一 层 指针 的 函数 接口 voida alloc_unit (unit_t *p) ; 不 能 分 配 内 存 ， 而 一 定 要 用 两 层 指针 的 函 






























































总 结 一 下 ， 两 层 指针 参数 如 果 是 传 出 的 ， 可 以 有 两 种 情况 : 种 情况 ， 传 出 的 指针 指向 静态 
人 LORD 种 
情况 是 在 函数 中 动态 分 配 内 存 ， 然 后 传 出 的 指针 指向 这 块 内 存 空间 ， 这 种 情况 下 调用 者 应 该 在 
使 用 内 存 之 后 调用 释放 内 存 的 函数 ， 调 用 者 的 责任 是 请 求 分 配 和 请 求 释放 内 存 ， 实 现 者 的 责任 
是 完成 分 配 内 存 和 释放 内 存 的 操作 。 由 于 这 两 种 情况 的 函数 接口 相同 ， 应 该 在 文档 中 说 明 是 哪 
种 情况 。 


EE 二 页 






























































































































































































































































2. 传人 参数 与 传 出 参数 4. 返回 值 是 指针 的 情况 





4. 返回 值 是 指针 的 情况 
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4. 返回 值 是 指针 的 情况 


返回 值 显然 是 传 出 的 而 不 是 传 和 的， 如果 返 回 值 传 出 的 是 指针 ， 和 上 一 市 通过 参数 传 出 指针 类 
似 ， 也 分 为 两 种 情况 : 第 一 种 是 传 出 指向 静态 内 存 或 已 分 配 的 动态 内 存 的 指针 ， 例 
如 1ocaltime (3) 和 inet_ntoa(3) ， 第 二 种 是 在 函数 中 动态 分 配 内 存 并 传 出 指向 这 块 内 存 的 指针 ， 
例如 malloc (3) ， 这 种 情况 通常 还 要 实现 一 个 释放 内 存 的 函数 ， 所 以 有 和 malloc (3) 对 应 

的 free(3) 。 由 于 这 两 种 情况 的 函数 接口 相同 ， 应 该 在 文档 中 说 明 是 哪 一 种 情况 。 
























































































































































































































































表 24.5. 返回 指向 已 分 配 内 存 的 指针 示例 : unit_t *func (void); 








1. 规定 返回 值 # 

















2. 将 返回 值 保存 下 来 以 备 后 用 | 2. 返回 一 个 指 和 

















以 下 是 一 个 完整 的 例子 。 


例 24.5. 返回 指向 已 分 配 内 存 的 指针 











Je ror porroa “7 
: #ifndef RET_PTR_H 
: #define RET PTR H 















‘extern char *get a day(int idx); 


; Jendif 


D rer orre Fy 
: #include <string.h> 
: #include "ret ptr.h" 


static const char *msg[] = {"Sunday", "Monday", 
; "Tuesday", "Wednesday", 
' "Thursday", "Friday", 
i "Saturday"}; 


| char *get_a_day (int idx) 
i 

: sete e alta se Eo vasa [E210 TNT 
strcpy (buf, msg[idx]); 
return buf; 


mene 
: #include <stdio.h> 
: #include "ret_ptr.h" 


me main (void) 


z 


pu 


以 下 


printf("Ss s\n", get a day(0), get a day(1)); 
return 0; 





ME 


程序 的 运行 结果 是 sunday Monday !!5? 青 读 者 自己 分 析 ie 
























































K 24.6. 动态 分 配 内 存 并 返回 指针 示例 : unit_t *alloc_unit (void); void 


free_unit (unit_t *p); 


























: yi] Haiioc. unit 4j BiU] f£ 5 规定 返回 值 指 型 unit t wy 


和 返回 值 保存 下 来 以 备 后 | 2.a11oc_unit 分 配 内 存 并 返回 指向 该 内 存 的 
指针 


Hfree unit FEX f£ i free_unit 释 放 由 alloc_unit 分 配 的 内 存 










































































是 一 个 完整 的 例子 。 








例 24.6. 动态 分 配 内 存 并 返回 指针 


Uo cer allocatorsa </ 
nce RET ALLOCATOR H 
: #define RET ALLOCATOR H 

















‘typedef struct { 
i int number; 
: char *msg; 

nr iuga 352 


| extern unit t *alloc unit (void); 
i extern void free unit(unit t *); 


i fendif 





i /* ret allocator.c */ 

: #include <stdio.h> 

| #include <string.h> 

: #include <stdlib.h> 

: #include "ret allocator.h" 


;unit t *alloc unit (void) 
3 


unit t *p = malloc(sizeof(unit t)); 


if(p -- NULL) ( 
printf("out of memory\n"); 
pats (iL) 9 

} 

p->number = 3; 


$5 
p->msg = malloc(20); 
strcpy (p->msg, "Hello world!"); 
return p; 


i) 


| void free unit(unit t *p) 


free (p->msg) ; 
free(p); 


/* main,e */ 
: #include <stdio.h> 
: #include "ret allocator.h" 


| int main(void) 
P4 


pumati ic “jo = alloe usate h) p 


: printf("number: %d\nmsg: %s\n", p-»number, p- 
; >MSg) ; 
| free unit (p); 
p = NULL; 
return 0; 





















































思考 一 下 ， 通 过 参数 分 配 内 存 需要 两 层 的 指针 ， 而 通过 返回 值 分 配 内 存 就 只 需要 返回 一 层 的 指 























3. 两 层 指针 的 参数 


5. 回调 函数 
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5. 回调 函数 


如 果 参 数 是 一 个 函数 指针 ， 调 用 者 可 以 传递 一 个 函数 的 地 址 给 实现 者 ， 让 实现 者 去 调用 它 ， 这 
称 为 回调 PRA (Callback Sud EUM 例如 asort (3 ) 和 bsearch (3) o 



































K 24.7. 回调 函数 示例 : void func(void (*£) (void *), void *p); 


. de^ aaa, te 

供 一 个 准备 传 给 回调 函数 

的 参数 。 1. 在 适当 的 时 候 根 据 调 用 者 传 来 的 函数 指 
外 调用 回调 函数 ， uoi i = 
. ØER, FE 数 p 转 交 给 回调 函数 ， 即 调用 fp 

准备 传 给 回调 函数 的 参数 

按 voiq * 类 型 传 给 参数 p 























































































































以 下 是 一 个 简单 的 例子 。 实 现 了 一 repeat_three_times KIA , HJ LAE JA FH] E FR BP EE RT Eli eR 


数 连 续 执行 三 次 。 








例 24.7. 回调 函数 


i /* para callback.h */ 
| #ifndef PARA CALLBACK H 
: #define PARA CALLBACK H 























: typedef void (*callback_t) (void *); 
| extern void repeat three times(callback t, void *); 


: #endif 


i /* para callback.c */ 
tinclude: "pasraecallIback ht 


| void repeat three times(callback t f, void *para) 
: { 
: f(para); 
f(para); 
f(para); 


J7 maim c 
adxnebudessstdioshs 
: #include "para callback.h" 


‘void say hello(void *str) 
P4 


princet (UieedLluo Sea. (Const clue 88:3) 


E 


: void count numbers (void *num) 


: { 
: AME L 

for(i-1; i<=(int)num; i++) 

Se nen (re Wu mE 

: Sema (Nm) 
im 
: int main (void) 
:( 
: repeat three times(say hello, (void *)"Guys"); 
: repeat three times(count numbers, (void *)4); 
return 0; 
:] 























回顾 一 下 前 面 几 节 的 例子 ， 参 数 类 型 都 是 由 实现 者 规定 的 。 而 本 例 中 回调 函数 的 参数 按 什 么 类 
型 解释 由 调用 者 规定 ， 对 于 实现 者 来 说 就 是 一 个 voia * 指 针 ， 实 现 者 只 负责 将 这 个 指针 转交 给 
回调 函数 ， 而 不 关心 它 到 底 指向 什么 数据 类 型 。 调 用 者 知道 自己 传 的 参数 是 cnar * 型 的 ， 那 么 
在 目 己 提 供 的 回调 函数 中 就 应 该 知道 参数 要 转换 成 cnar * 型 来 解释 。 


回调 函数 的 一 个 典型 应 用 就 是 实现 类 似 C++ 的 沁 型 算法 (Generics Algorithm) 。 下 面 实现 
的 max 函 数 可 以 在 任意 一 组 对 象 ' 找 出 最 大 值 ， 可 以 是 一 组 int、 组 char 或 者 一 组 结构 体 ， 但 
是 实现 者 并 不 知道 怎样 去 比较 两 个 对 象 的 大 小 ， 调用 者 需要 提供 一 个 做 比较 操作 的 回调 函数 。 














































































































































































































Sub 

























































































































































































































































































例 24.8. 1278 £X 




















| /* generics.h */ 
| #ifndef GENERICS H 
: #define GENERICS H 


‘typedef int (*cmp t) (void *, void *); 
i extern void *max(void *data[], int num, cmp t cmp); 


| #endif 


i /* generics.c */ 
"dcnerIndec'generscos nu 


: void *max(void *data[], int num, cmp_t cmp) 
: { 
: aigue LA 
void *temp - data[0]; 
for(i-1; i<num; i++) { 

if (cmp (temp, data[i]) <0) 

temp = data[i]; 

} 


return temp; 


ie mae A 
: #include <stdio.h> 
: #include "generics.h" 


‘typedef struct { 

: const char *name; 
: int score; 
ES 


: int cmp student(void *a, void *b) 
i { 
: if(((student t *)a)-»score > ((student t *)b)- 


i >score) 
: return 1; 


: else if(((student t *)a)->score == ((student t 

! *)b)-»score) 

| return 0; 

else 

: Peturi l 

iy 

posta main (void) 

: { 

i Shrelenme a len Se AN = Om OS}, X ey, T9 
(MOB 0». ly On 

有 studentat Tea [A] e qedasne9] S 

el ieee [2]. Cine esl ie 

i student_t *pmax = max((void **)plist, 4, 

; emp. student); 

: printf("%s gets the highest score %d\n", pmax- 


i »name, pmax-»score); 


return 0; 











































































































































































































































































































































































































































































































max 函 数 之 所 以 能 对 一 组 任意 类 型 的 对 象 进 行 操作 ， 关 键 在 于 传 给 max 的 是 指向 对 象 的 指针 所 构 
成 的 数组 ， 而 不 是 对 象 本 身 所 构成 的 数组 ， 这 样 max 不 必 关 心 对 象 到 底 是 什么 类 型 ， 只 需 转 给 比 
As EFI emp , 然后 根据 比较 结 采 改 相 应 操作 即 可 ，cmp 是 调用 者 提供 的 回调 函数 ， 调 用 者 当然 知 
道 对 象 是 什么 类 型 以 及 如 何 比较 。 

以 上 举例 的 回 滑 函 数 是 被 同步 调用 的 ， 调 用 者 调用 max 了 水 数 ，max 函 数 则 调用 cmp 函 数 ， 相 当 于 调 
用 者 间接 调 了 自己 提供 的 回调 函数 。 在 实际 系统 '"， 寞 步调 用 也 是 回调 函数 的 种 典型 用 法 ， 
调用 者 首先 将 回调 函数 传 全 实现 者 ， 实 现 者 记 住 这 个 函数 ， 这 称 为 注册 一 个 回调 函数 ， 然 后 当 
某 个 事件 发 生 时 实现 者 再 调用 先前 注册 的 吗 数 ， 比如 sigaction (2 ) 注册 一 个 信和 号 h FH PRA 当 信 
号 产生 时 由 系统 调用 该 函数 进行 处 理 ， 再 比如 ptnreagd_ create ( 3) 注册 一 个 线程 AL 当 发 生 调 
度 时 系统 切换 到 新 注册 的 线程 函数 中 运行 ， 在 GUI 纺 程 中 异步 回调 函数 更 是 有 普遍 的 应 用 ， 例 如 
为 某 个 按钮 注册 一 个 回调 函数 ， 当 用 户 点 击 按钮 时 调用 它 。 



































以 下 是 一 个 代码 框架 。 





















































57* Pegistry.h */ 
i #ifndef REGISTRY H 
: ddefine REGISTRY H 


| typedef void (*registry t) (void); 
: extern void register func(registry t); 


| fendif 





: /* registry.c t 
: #include <unistd.h> 


: #include "registry.h" 


tabu Hi SES ween anes 


: void register func(registry t f) 
Pd 


func fa 


i) 


i static void on some event (void) 


i { 


func 


i} | 


既然 参数 可 以 是 函数 指针 ， 返 回 值 同 样 也 可 以 是 函数 指针 ， 因 此 可 以 有 func() 0 ;这样 的 调用 。 
返回 函数 的 函数 在 C 语 言 中 很 少见 ， 在 一 些 函数 式 编程 语言 例如 LISP、Haskell 中 则 很 常见 ， 革 
本 思想 是 把 函数 也 当 作 一 种 数据 来 操作 ， 输 入 、 输 出 和 参与 运算 ， 操 作 函 数 的 函数 称 为 高 阶 函 
数 (High-order Function) 。 


习题 









































































































































1、[K&R] 的 5.6 节 有 一 个 asort 冰 数 的 实现 ， 可 以 对 一 组 任意 类 型 的 对 象 做 快速 排序 。 请 读者 仿 
照 那 个 例子 ， 写 一 个 插入 排序 的 函数 和 一 个 折 半 查找 的 函数 。 


























| 





4. 返回 值 是 指针 的 情况 


6. 可 变 参 数 
第 24 章 pe Boe 








到 目前 为 止 我 们 只 见 过 一 个 带 有 可 变 参 数 的 函数 printf: 
































以 后 还 会 见 到 更 多 这 样 的 函数 。 现 在 我 们 实现 一 个 简单 的 myprintf 消 数 : 









































例 24.9. 用 可 变 参 数 实现 简单 的 printf 栖 数 


; #include <stdio.h> 
i #include <stdarg.h> 


| void mv Ie (COMET GE Orme 556) 
: { 
: va list ap; 
char c; 


va start(ap, format); 
while (c = *format++) { 
switch(c) { 
Case c ET 
: /* char is promoted to int when passed 
boueb ctr 
: char ch = va arg(ap, int); 
putchar (ch); 
break; 
} 
case 's': { 
char *p = va_arg(ap, char *); 
fputs(p, stdout); 





break; 
} 
default: 
putchar (c); 
} 
} 
| va end (ap); 
i 
| int main (void) 
Bd 
: morint (UeWbSWaU, YY, Ulsellg)r 
: return 0; 
: } 
























































要 处 理 可 变 参数 ， 需要 用 C 到 标准 库 的 va_1ist 类 型 和 va_start、va_arg、 va end, 这 些 定 义 
在 stqarg.h 头 文件 中 。 这 些 宏 是 如 何 取 出 可 变 参 数 的 呢 ? 我 们 首先 对 照 反 汇编 分 析 在 调 
用 myprintf 了 水 数 时 这 些 参数 的 内 存 布局 。 


MAE (We\ies \inY, "LI, Wel Low)g 
| 80484c5: c7 44 24 08 bO 85 04 movil 
: $0x80485b0, 0x8 ($esp) 
: 80484cc: 08 





















































80484cd: c7 44 24 04 31 00 00 movi $0x31,0x4 ($esp) 


80484d4: 00 
8048485: c7 04 24 b6 85 04 08 movil $0x80485b6, ($esp) 
80484dc: e8 43 fE fE rf call 8048424 <myprintf> 





图 24.6. myprinté || 函数 的 参数 布局 







hello\O 








这 些 参数 是 从 右 向 左 依 次 压 栈 的 ， 所 以 第 一 个 参数 靠近 栈 硕 ， 第 三 个 参数 靠近 栈 底 。 
是 连续 存放 的 ， 每 个 参数 都 对 齐 到 4 字 市 边界 。 第 一 个 和 第 三 个 参数 都 是 指 























在 内 存 























这 些 参 数 


针 类 型 ， 各 














占 4 个 字 节 ， 虽 然 第 二 个 参数 只 占 一 个 字 节 ， 但 为 了 使 第 三 个 参数 对 齐 到 4 字 节 边界 ， 所 以 第 二 
个 参数 也 占 4 个 字 节 。 现 在 给 出 一 个 staarg.h 的 简单 实现 ， 这 个 实现 出 上 自 [Standard C Library]: 


























例 24.10. stdarg.h 的 一 种 实现 


i /* stdarg.h standard header */ 
i #ifndef | STDARG 
: #define  STDARG 


| /* type definitions */ 

typedet char sva ish, 

i: /* macros */ 

| #define va arg(ap, T) \ 

: (s qu £e) «c Jewel, Png SIU) )) } 
: #define va end(ap) (void) 0 

: ¢#define va start(ap, A) \ 

i (void) ( (ap) = (char *)&(A) + _Bnd(A, 3U)) 

| #define _Bnd(X, bnd) (sizeof (X) + (bnd) & -(bnd)) 

: fendif 











这 个 头 文 件 中 的 内 部 宏 定义 _Bna (Xx，pna) 将 类 型 或 变量 x 的 长 度 对 齐 到 pna+1 字 市 的 整 

















如 _Bnd (char，30) 的 值 是 4，_Bna (int，30) 也 是 4。 


























在 myprintf 中 定义 的 va_list ap; 其 实 是 一 个 指 和 


的 下 一 个 参数 ， 也 就 是 指 癌 上 图 中 esp+4 的 位 置 。 然 后 va_arg (ap，int 
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Ee, Bil 


KFT, va start(ap, format) apa IP] format Z2 ZA 


把 第 二 个 参数 的 值 


按 int 型 取出 来 ， 同时 使 ap 指 向 第 三 个 参数 ， 也 就 是 指向 上 图 中 esp+8 的 位 置 。 然 后 va_arg (ap, 















































char *) 把 第 三 个 参数 的 值 按 char * 型 取出 来 ， 同 时 使 ap 指 向 更 高 的 地 址 。va_end (a 














p) 在 我 们 的 


















































简单 实现 中 不 起 任何 作用 ， 在 有 些 实现 中 可 能 会 把 ap 改 写成 无 效 值 ，C 标 准 要 求 在 函数 返回 前 调 




















用 va_end。 












































如 果 把 myprintf (的 char ch = va_arg(ap, int); char ch = va arg(ap, char);, 用 我 们 
这 个 staarg.h 的 简单 实现 是 没有 问题 的 。 但 如 果 改 用 lipc 提 供 的 staarg.h， 在 编译 时 会 报错 : 






































| $ gcc main.c 


anne ne on ny: 

imain.c:33: warning: ‘char’ is promoted to ‘int’ when passed 

P tlousoxehm "oso" 

| main.c:33: note: (so you should pass ‘int’ not ‘char’ to 
uve c 

i main.c:33: note: if this code is reached, the program will abort 


$ 


./a.out 


: Illegal instruction 

























































































print HORIS 23 (FES 








































































































型 、 个 数 与 格式 化 


因此 要 求 char 型 的 可 变 参 数 必须 按 int 型 来 取 ， 这 是 为 了 与 C 标 准 一 致 ， 我 们 在 第 3.1 T 
“Integer Promotion" 讲 过 Default Argument Promotion 规 则 ， 传 递 cnar 型 的 可 变 参 数 时 要 提 









































FFR) 来 
字符 串 的 描述 相 匹 配 























为 int 型 。 

从 myprintf 的 例子 可 以 理 print HJ KJR, 
确定 后 面 有 几 个 参数 ， 分 别 是 什么 类 型 。 保 证 参数 的 类 

是 调用 者 的 责任 ， 实 现 者 只 管 按 格式 化 

型 或 个 数 不 正 确 ， 实 现 者 是 没有 办 法 避免 错误 的 。 

还 有 一 种 方法 可 以 确定 可 变 参 数 的 个 数 ， 就 是 在 参数 列表 的 末 


























UNNULL o execl (3) 就 采 


干 个 传 入 的 字符 串 。 











例 24.11. 根据 Sentinel 判 断 可 变 参 数 的 个 数 





: #include <stdio.h> 
: #include <stdarg.h> 


: void printlist (int begin, 


Pd 
: va list ap; 
Glouue ey 
va start(ap, begin); 
jo = Wel EEC dai echa E 
while (p != NULL) { 
fputs(p, stdout); 
joule clause (7 Wa) 
p^ va arg(ap, char*); 
} 
: va end(ap); 
i 
: int main (void) 
i { 
printlist(0, "hello", "world", 


E NULL); 
: return 0; 


a 











字符 串 的 描述 从 栈 上 取 数据 ， 如 果 调用 者 传递 的 参数 类 











UE (OX)! p 


EFz—" Sentinel, i 


HITE EBB CS PTRISEEEU T printiisc KZ, H LATE 


"bar" , 














printlist 的 第 一 个 参数 begin 的 值 并 没有 









































到 ， 但 是 C 语 言 规定 至 少 : 



































因为 va_start 宏 要 用 到 人 参 数列 表 
置 。 实 现 者 应 该 在 文档 中 说 明 参 数列 表 必须 以 n 






































Ba UH AFB, MENS 


要 定义 一 个 有 和 名字 的 参数 ， 
出 址 开始 找 可 变 参 数 的 位 














ULLS 


E, WR NET ATA, KMA 




















是 没有 办 法 避免 错误 的 。 
习题 


1、 实 现 一 个 功能 更 完整 的 printft， 能 够 识别 s， 能 够 处 理 sa、so、sx 对 应 的 整数 参数 。 在 实现 
中 不 许 调 用 printf (3) 这 个 Man Page 中 描述 的 任何 函数 。 


第 25 章 C 标 准 库 
部 分 M. C 语 言 本 质 









































2.2. a ee 
2.3. stdin/stdout/stderr 


2.4. errno *perrorrK Zf 

2 5 LAS 为 单位 的 MO pKa 
2.7. 以 字符 HA] 单位 的 VO KZN 
TLIO ERE 

















8. [以 记 : 
2.9. 格式 化 MO PR 




















2.10. C 标 准 库 的 VOD 组 ; 


3. 数值 字符 串 转换 函数 
"s EMX 
B. 本 音 综 合 





x 


















































C 标 准 主要 由 两 部 分 组 成 ， 一 部 分 描述 C 的 语法 ， 一 部 分 描述 C 标 准 库 。 换 名 话说 ， 要 在 一 个 平 
人 台 上 文 持 C 语 言 ， 不 仅 要 实现 C 编 译 圳 ， 还 要 实现 C 标 准 库 ， 这 样 的 实现 才 算 符合 C 标 准 。 不 符 
合 C 标 准 的 实现 也 是 存在 的 ， 例 如 有 些 单片机 的 C 语 言 开 发 工具 中 只 有 C 编 译 器 而 没有 完整 

的 C 标 准 库 。 


在 前 面 的 各 章 中 我 们 已 经 见 过 C 标 准 库 的 一 些 用 法 ， 总 结 如 下 : 


。 我 们 最 名 用 的 是 包含 staio.h， 使 用 其 中 声明 的 printf 琢 数 ， 这 个 函数 在 lipc 
在 运行 时 要 动态 链接 1ibc 共 享 库 。 
















































































































































































HH 
a 








实现 ， 程 
















































































。 在 第 178. “数学 函数 "中 用 到 了 matn.h 中 声明 的 sin 和 1og 函 数 ， 使 用 这 些 函 数 需 要 动态 链 
接 1ipm 共 享 库 。 
。 在 第 2 节 “数组 应 用 实例 : 统计 随机 类 到 了 stalib.n 中 声明 的 rana 函 数 ， 还 提 到 了 这 





























GU AE. SCA RAND_] Max 常 量 ， : 
HJ srandg PK 数 和 time.h 中 声 明 frime 











18.5 “BY 头 布 "中 用 到 了 stalib.h 中 声明 
这 些 了 水 数 需 要 动态 链接 1ipc 共 享 库 。 






































bs 
BE 
H 





















































! 用 到 了 stalib.h 中 声明 的 exit 函数 ， 使 用 这 个 函数 需要 











动态 链接 Tit 共享 库 。 

































































。 在 第 6 节 “ 折 六 查找 "中 用 到 了 assert .hn 中 定义 的 assert 宏 ， 在 第 4 5 "其它 预 处 理 特性 ? 
我 们 看 到 了 这 个 宏 的 一 种 实现 ， 它 的 实现 需要 调用 staio.h 和 和 stalib.h 中 声明 的 水 数 ， 所 以 
使 用 这 个 宏 也 需要 动态 链接 1ibc 共 享 库 。 


4 1i “Sizeof 运 算 符 与 typedef 类 型 声明 "中 提 到 了 size_t 类 型 在 staaef.nh 中 定义， 
虽 针 的 基本 操 ri Estddef .h PEX o 





















































































































































e. TES 1 节 “ 本 章 的 预 iR" 介绍 了 stalipb. h 8 HH Hmalloc#ll tree Pl? ZU string. h 
Fa HAA strcpy#lst rncpy A 数 ， 使用 这 些 函 数 需 要 动态 链接 1ipc 共 享 库 。 


。 在 第 6 节 “ 可 变 参 数 " 中 介绍 了 staarg.h 中 和 定义 的 va_list 类 型 
和 va_arg、va_start、va -end EX, Tx 了 一 种 实现 ， 这 些 宏 定 义 的 实现 并 没有 调 
FH Je e| ZR, 所 以 不 依赖 于 某 个 共 享 库 ， 一 点 和 assert 不 同 。 


总 结 一 下 ，Linux 平 台 提 供 的 C 标 准 库 包 括 : 


。 一 组 头 文件 ， 定 义 了 很 多 类 型 和 宏 ， 声 明了 很 多 库 函 数 。 这 些 头 文件 放 在 哪些 目录 下 取决 
于 不 同 的 编译 妖 ， 在 我 的 系统 上 ， stdarg.hfllstddef .h [V T /usr/1ib/gcc/i486-1inux- 
gnu/4.3.2/include HoK F, stdio.hy stdlib.hy time.hy math.hy assert.hÍV. 

于 /usry/include 目 录 下 。C99 标 准 定 义 的 头 文件 有 24 个 ， 本 书 只 介绍 其 中 最 基本 、 最 名 用 
的 几 个 。 


。 一 组 库 文件 ， a 数 的 实现 。 大 多 数 库 函 数 在 lipc 共 享 库 中 ， 有 些 库 函 数 在 另外 的 
共享 库 中 ， 例如 数学 函数 在 1ipm 中 。 在 第 4 三 “共享 库 " 讲 过 ， 通常 libe 共 享 库 
/lib/libc.so.6, Wise RAUS 用 了 hwcap 机 制 ，liibc 共 享 库 


/lib/tls/i686/cmov/libc.so.6o 


ie 另外 一 些 最 基本 和 最 常用 的 库 函 数 (包括 一 些 不 属于 C 标 准 但 在 UNIX 平 台 上 很 常用 的 

KZO ， 写 这 一 章 是 为 了 介绍 字符 串 操 作 和 文件 操 UE 而 不 是 为 了 写 一 本 C 标 准 库 函 
NUT Jt, Man Page 已 经 是 一 本 很 好 的 手册 了 ， 读 者 学 完 这 一 章 之 后 在 开发 时 应 该 查 
阅 Man Page, ， 而 不 是 把 我 这 一 章 当 参考 手册 来 翻 ， p deser A TR B REG T Pf 数 ， 
对 于 本 章 讲 到 的 函数 有 些 也 不 会 讲 得 很 细 ， 因 为 我 假定 读者 经 过 上 一 章 的 学 习 再 结合 我 讲 过 的 
基本 概念 已 经 能 看 懂 相 关 的 Man Page 了 。 很 多 技术 书 的 作者 给 自己 的 书 太 多 定位 ， 既 想 写成 一 
本 入 门 教程 ， 又 想 写成 一 本 参考 手册 ; 我 党 得 这 样 不 好 ， 读 者 过 于 依赖 扩 术 书 就 失去 了 看 真正 
的 手册 的 能 
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1. PAE BER YE KZ 





1. FFF ERY E PAL 





第 25 章 C 标 准 库 


1. 子 符 串 操作 函数 


程序 按 功 能 划分 可 分 为 数值 运算 、 符 号 处 理 和 I/O 操 作 三 类 ， 符 号 处 理 程序 占 相 当 大 的 比例 ， 符 
号 处 理 程序 无 处 不 在 ,编译 带 、 浏 览 咽 、Office 套 件 等 程序 的 主要 功能 都 是 符号 处 理 。 无 论 多 复 
杂 的 符号 处 理 都 是 由 各 种 基本 的 字符 串 操 作 组 成 的 ， 本 市 介绍 如 何 用 C 语 言 的 库 函 数 做 字符 串 初 
始 化 、 取 长 度 、 拷 贝 、 连 接 、 比 较 、 搜 索 等 基本 操作 。 


14. 初始 化 字符 串 










































































































































































: #include <string.h> 


: void *memset (void *s, int c, size t n); 


: 返回 值 :s 指 向 哪 ,返回 的 指针 就 指向 哪 



























































memset 国 数 把 s 所 指 的 内 存 地 址 开始 的 n 个 字 贡 都 填充 为 c 的 值 。 通 党 < 的 值 为 0， 把 一 块 内 存 区 清 
零 。 例 如 定义 char puf[10];， 如 果 它 是 全 局 变量 或 静态 变量 ， 则 自动 初始 化 为 0 (位 
于 .bss 段 ) > 如 果 它 是 函数 的 局 部 变量 ， 则 初 值 不 确定 ， 可 以 用 memset (buf, 0, 10) He, 
由 malloc 分 配 的 内 存 初 值 也 是 不 确定 的 ， 也 可 以 用 memset 清 零 。 



























































































































































1.2. 取 字 符 串 的 长 度 


i include <string.h> 


二 se strlen(const char *s); 
; 返回 值 : 字符 串 的 长 度 








strlen 消 数 返回 s 所 指 的 字符 串 的 长 度 。 该 函数 从 s 所 指 的 第 一 个 字符 开始 找 '\0' 字 符 ， 一 旦 找 
到 就 返回 ， 返 回 的 长 度 不 包括 '\o' 字 符 在 内 。 例 如 定义 char bufi] = "hello";, 
则 strien (but) 的 值 是 5， 但 要 注意 ， 如 果 定 义 char buf[5] = "hello"; ， 则 调用 strien (buf) 是 


危险 的 ， 会 造成 数组 访问 越界 。 
1.3. WEP 
在 第 1 节 “ 本 章 的 预 识 " 中 介绍 了 strcpy 和 strncpy 螨 数 ， 找 贝 以 '\01 结 尾 的 字符 


串 ，strncpy 还 带 一 个 参数 指定 最 多 找 贝 多 少 个 字 市 ， 此 外 ，strncpy 并 不 保证 绥 冲 区 以 '\0' 结 
FÉ. ILES memcpy Flmemmove PBL 
























































































































































! #include <string.h> 


: void *memcpy(void *dest, const void *src, size t n); 
‘void *memmove (void *dest, const void *src, size t n); 


: 返回 值 : dest 指 向 哪 ， 返 回 的 # 


[y 


EE EI R 












































memcpy ÄM sec Arta AY A PHS n 575 Eest MII AFRA, fllscenepy ^ 
同 ， memcpy 并 不 是 过 到 '\o' 就 结束 ， 而 是 ER sinh FA 这 里 的 命名 规律 是 ， 以 str 开 
头 的 函数 处 理 以 0" 结尾 的 字符 串 ， 而 以 mem 开 头 的 函数 则 不 关心 心 o' 字 符 ， 或 者 说 这 些 函 数 并 





































































































不 把 参数 当 字 符 串 看 待 ， 因 此 参数 的 指针 类 型 是 voida * 而 非 char *。 


memmove 也 是 从 src 所 指 的 内 存 地 址 找 MAS quaa eu FR ARI move (HE. SE tb, 
是 拷贝 而 非 移动 。 但 是 和 memcpy 有 一 点 不 同 ，memcpy 的 两 个 参数 src 和 aest 所 指 的 内 存 区 间 如 果 
FE SMI CIE DI HE LE Df AWU, MN a 假设 定义 了 一 个 数组 char buf[20] = 

"hello world\n"; ， 如 果 想 把 其 中 的 字符 串 往 后 移动 一 个 字 市 ( 变 成 "nnello world\n") ， 调 
用 memcpy (buf + 1, buf, 13) 是 无 法 保证 正确 拷贝 的 : 













































































































































































例 25.1. 错误 的 memcpy 调 用 


: #include <stdio.h> 
i #include <string.h> 














: int main(void) 


: { 

: char buf[20] = "hello world\n"; 
memcpy (buf + 1, buf, 13); 
jOISaLINNE Ie (SY) p 

: return 0; 

- 



































在 我 的 机 右上 运行 的 结果 是 hhhllooworrd。 如 果 把 代码 [的 memcpy 改 成 memnove 则 可 以 保证 正确 
拷贝 。 memmove 可 以 这 样 实现 : 


i void *memmove (void *dest, const void *src, size t n) 


Ez 





























char temp[n]; 

aloe a9 

char *d = dest; 
conmsise char NM ST GI 


itus (3h = (Qe al ow sore alersp)) 
temp [2] = s 
ieu (GL = (Ug 3L «€ sop abs) 
d[i] = temp[i]l; 


return dest; 









































BPM temp, HiflsrcflaescPTEBEPICEDCIRUE S Ste REE dW. SF, 
QUA BUILT M S] EE P DX BE AS RE LE UR AE SA EE DC TRI] P5 D? 


用 memcpy 如 有 果 得 到 的 结果 是 hphhhhhhhhhhhh 倒 不 奇怪 ， 可 为 什么 会 得 到 hhhllooworrdq 这 个 奇怪 的 
结果 呢 ”根据 这 个 结果 猜测 的 一 种 可 能 的 实现 是 : 
























































































































































: void *memcpy(void *dest, const void *src, size t n) 
B 
| char *d = dest; 
COMMS clas ome, 
aigu. VCERA 
@onsc nm “er 
Ine T =n s ay 
while (r--) 

xd++ = *s++; 


di = (int *)d; 
si = (Const Tne Ss 
n /= 4; 
while (n--) 
SOH co Se 


return dest; 


i} | 


在 32 位 的 x86 平 台 上 ， 每 次 拷贝 1 个 字 节 需要 一 条 指令 ， 每 次 找 贝 4 个 字 节 也 只 需要 一 条 旨 
邻 ，memcpy 肖 数 的 实现 尽 可 能 4 个 字 节 4 个 字 节 地 找 贝 ， 因 而 得 到 上 述 结果 。 






































my 























C99 H]restrict Kit 


























我 们 来 看 一 个 跟 memcpy/memmove 类 似 的 问题 。 下 面 的 函数 将 两 个 数 
组 中 对 应 的 元 素 相 加 ， 结 果 保 存在 第 三 个 数组 中 。 
































woe VecEorneadd (tigate o teat ev silia 
*result) 
{ 
alae, LA 
icone (Gi = Wp a «€ (UE SaL) 
resulta a || em [abd a> [tail] p 
} 











如 果 这 个 函数 要 在 多 处 理 器 的 计算 机 上 执行 ， 编 译 器 可 以 做 这 样 
的 优化 : 把 这 一 个 循环 拆 成 两 个 循环 ， 一 个 处 理 絮 计算 i 值 
从 0 到 31 的 循环 ， 另 一 个 处 理 器 计算 i 值 从 32 到 63 的 循环 ， 这 样 两 
个 处 理 器 可 以 同时 工作 ， 使 计算 时 间 缩 短 一 半 。 但 是 这 样 的 编译 
优化 能 保证 得 出 正确 结果 吗 ” 假 如 result 和 x 所 指 的 内 存 区 间 是 重 
AHJ, result [10] 其 实 是 x[1] ，result [i] 其 实 是 x[i+1] ， 这 两 个 处 
理 絮 就 不 能 各 干 各 的 事情 了 ， 因 为 第 二 个 处 理 器 的 工作 依赖 于 第 
一 个 处 理 吉 的 最 终 计算 结果 ， 这 种 情况 下 编译 优化 的 结果 是 错 
的 。 这 样 看 来 编译 需 是 不 敢 随 便 做 优化 了 ， 那 么 多 处 理 需 提供 的 
并 行 性 就 无 法 利用 ， 岂 不 可 惜 ? 为 此 ，C99 引 入 restrict 关 键 字 , 
如 果 程 序 员 把 上 面 的 函数 声明 为 voida vector_add(float 



































































































































































































































eS ne Sy, loa resitunietey loati esi resue 
就 是 告诉 编译 器 可 以 放心 地 对 这 个 函数 做 优化 ， 程 序 员 自己 会 保 
证 这 些 指针 所 指 的 内 存 区间 互 不 重 辣 。 


由 于 restrict 是 C99 引 入 的 新 关键 字 ， 目 前 Linux 的 Man Page 还 没 
有 更 新 ， 所 以 都 没有 restrict 关 键 字 ， 本 书 的 函数 原型 都 取 

A Man Page, 所 以 也 都 没有 restrict 关 键 字 。 但 在 C99 标 准 中 库 
函数 的 原型 都 在 必要 的 地 方 加 了 restrict 关 键 字 ， 

在 C99 中 memcpy 的 原型 是 voida *memcpy (void * restrict sl, 
COMMS wouiulcl ** waCtIclCt (2, (ize im) B 就 是 告诉 调用 者 ， 这 个 
函数 的 实现 可 能 会 做 些 优化 ， 编 译 絮 也 可 能 会 做 些 优化 ， 传 进来 
的 指针 不 允许 指向 重 且 的 内 存 区 间 ， 否 则 结果 可 能 是 错 的 ， 

而 memmove 的 原型 是 void *xmemmove (void *s1, const void *s2, 
size t n);， 设 有 restrict 关 键 字 ， 说明 传 给 这 个 函数 的 指针 允许 
HEZAKE. 在 restrict 关 键 字 出 现 之 前 都 是 用 自然 语 
言 描述 哪些 函数 的 参数 不 允许 指向 重 全 的 内 存 区 间 ， 例 如 在 C89 标 
准 的 库 函 数 一 章 开头 提 到 ， 本 章 描 述 的 所 有 函数 ， 除 非特 别 说 
明 ， 都 不 应 该 接收 两 个 指针 参数 指向 重 登 的 内 存 区 间 ， 例 如 调 
用 sprintf 时 传 进来 的 格式 化 字符 串 和 结果 字符 串 的 首 地 址 相同 , 
诸如 此 类 的 调用 都 是 非法 的 。 本 书 也 遵循 这 一 惯例 ， 除 非 

像 memmove 这 样 特 别 说 明之 外 ， BIN NA s 


关于 restrict 关 键 字 更 详细 的 解释 可 以 参考 [BeganFORTRAN]。 



















































































































































































































































































































































































字符 串 的 找 贝 也 可 以 用 straup (3) 函数 ， 这 个 函数 不 属于 C 标 准 库 ， 是 POSIX 标 准 中 定义 
的 ，POSIX 标 准 定义 了 UNIX 系 统 的 各 种 接口 ， 包 含 C 标 准 库 的 所 有 函数 和 很 多 其 它 的 系统 函 
数 ， 在 第 2 节 “C 标 准 VO 库 函数 与 Unbuffered I/O 函 数 "将 详细 介绍 POSIX 标 准 。 
































i #include <string.h> 


: char Astr raup (cos Mau E) ¢ 


: 返回 值 : PEIA He 


















































这 个 函数 调用 mal1loc 动 态 分 配 内 存 ， 把 字符 串 s 找 贝 到 新 分 配 的 内 存 中 然后 返回 。 用 这 个 函数 省 
去 了 事先 为 新 字符 串 分 配 内 存 的 麻烦 ， 但 是 用 完 之 后 要 记得 调用 free 释 放 新 字符 串 的 内 存 。 









































3 
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1.4. 连接 字 


i #include <string.h> 


i char streat (Char *dest, Const char *sire)l- 
‘char *strncat(char *dest, const char *src, size t n); 


: 返回 值 : destí 


Iv 











iy 
ah 


那 ， 返 回 的 指针 就 指 癌 哪 





















































strcat 把 src 所 指 的 字符 串 连接 到 aest 所 指 的 字符 串 后 面 ， 例 如 : 
OO 2999 
char s[10] = "bar" 





“etreat(d, S); 
p printi (Uge S5\n", c dos 






































Val FA strcat EK ZUR , 缓冲 区 = 的 内 容 没 变 ， 缓冲 区 a HRA EAE AA" £00bar", 注意 原来 "foo" 后 
面 的 \0o' 被 连接 上 来 的 字符 串 "bar" 覆 盖 掉 了 ，"bar" 后 面 的 0' 仍 保留 。 


strcat 和 strcpy 有 同样 的 问题 ， 调 用 者 必须 确保 aest 绥 冲 区 足够 大 ， 和 否则 会 导致 缓冲 区 溢出 4 
误 。strncat 函数 通过 参数 n 指 定 一 个 长 度 ， 就 可 以 避免 缓冲 区 洪 出 错误 。 注 意 这 个 参数 n 的 含义 
和 strncpy 的 参数 n 不 同 ， 它 并 不 是 缓冲 区 aest 的 长 度 ， 而 是 表示 最 多 从 src 绥 冲 区 中 取 n 个 字符 
(不 包括 结尾 的 '\0') 连接 到 aest 后 面 。 如 果 src 中 前 n 个 字符 没有 出 现 \o' ， 则 取 前 n 个 字符 再 
上 一 个 人 0 连接 到 dest 后面 ， 所 以 strncat 总 是 保证 aest 组 ; 区 以 '\0' 结 尾 ， 这 一 点 又 
strncpy 不 同 ， strncpy 并 不 保证 aest 绥 ? 区 以 改 0' 结 尾 。 所 以 ， 提供 给 strncat 国 数 的 aest 绥 
1 区 的 大 小 至 少 应 该 是 strlen (dest) +n+1 个 字 市 ， 才能 保证 不 溢出 。 


1.5. 比较 字符 串 







































































IE 
















































































































































































cB 过 









































ay 




















! #include <string.h> 


dim memcmp(const void *sl, const void *s2, size t n); 
aum strcmp(const char *s1, const char *s2); 
b ME Sites empero msi “Sil, cms ea 





























; 返回 值 : 负 值 表示 s1 小 于 s2 ，0 表 示 s1 等 于 s2 ， 正 值 表示 s1 大 于 s2 



































memcmp 从 前 到 后 逐个 比较 缓冲 区 st 和 s2 的 前 no 个 字 节 (不 管 里 面 有 没有 心 o') ， 如 果 s1 和 sz2 的 
前 n 个 字 节 全 都 一 样 就 返回 0， 如 果 遇 到 不 一 样 的 字 节 ，si1 的 字 节 比 sz 小 就 返回 负 值 ，si 的 字 仙 
比 s2 大 就 返回 正 值 。 


strcmp 把 sl 和 s2 当 字符 串 比 较 ， 在 其 中 一 个 字符 串 中 遇 到 '\o' 时 结束 ， 按 照 上 面 的 比较 准 
则 ，waBc" 比 "apc" 小 ，"aABcp" 比 "aBc" 大 ，"w123A9" 比 "123B2" 小 。 










































































































































































strncmp 的 比较 结束 条 件 是 : RATE APSE BE o 结束 (BUF strcmp) HA tk 


较 完 n 个 字符 结束 (类 似 于 memcmp) o 例如 ， strncmp ("ABCD", "ABC", 3) 的 返回 值 
是 0，strncmp ("ABCD"，"ABc"，4) 的 返回 值 是 正 值 。 





















































: #include <strings.h> 


| Strcasecmp(const char *sl, const char *s2); 
‘dint strncasecmp (const char “sl, const char *s2, sizelt nm» 
































: 返回 值 : 负 值 表示 s1 小 于 s2，0 表 示 s1 等 于 s2 ， 正 值 表示 s1 大 于 s2 























这 两 个 函数 和 strcme/strncmp 类 似 ， 但 在 比较 过 程 中 忽略 大 小 写 ， 大 写字 母 A 和 小 写字 母 a 认 为 
是 相等 的 。 这 两 个 函数 不 属于 C 标 准 库 ， 是 POSIX 标 准 中 定义 的 。 


1.6. 搜索 字符 串 
































i #include <string.h> 


; char Serene (CONS (clos “SG, aba (9) E 
‘char *strrchr(const char *s, int c) 









































;返回 值 : 如 果 找 到 字符 ec， 返回 字符 串 s 中 指向 字符 c 的 指针 ， 如 果 找 不 到 就 返回 NUTI 












































strchr 在 字符 串 s 中 从 前 到 后 查找 字符 。， 找 到 字符 第 一 次 出 现 的 位 置 时 就 返回 ， 返 回 值 指向 这 
个 位 置 ， 如 有 果 找 不 到 字符 c 就 返回 NuLL。strrchr 和 strcnr 类 似 ,但 是 从 右 向 左 找 字 符 。， 找 到 字 
符 c 第 一 次 出 现 的 位 置 就 返回 ， 郑 数 名 中 间 多 了 一 个 字母 r 可 以 理解 为 Right-to-left。 




































































i #include <string.h> 


‘char *strstr(const char *haystack, const char *needle); 





























: 返回 值 ， 如 果 找 到 子囊 ， 返 回 值 指向 子 串 的 开头 ， 如 果 找 不 到 就 返回 NULL 



























































strstr 在 一 个 长 字符 串 中 从 前 到 后 找 一 个 子 串 (Substring) ， 找 到 子 串 第 一 次 出 现 的 位 置 就 返 
E, 返回 值 指 向 子囊 的 开头 ， 如 果 找 不 到 就 返回 NULL。 这 两 个 参数 名 很 形象 ， 在 干草 
MEnaystack 1 找 一 根 针 neeale ， T CIT PUTA HACERTE FF , 显然 haystack 是 长 字符 串 ， needle 是 
要 找 的 子 串 。 


搜索 子 吕 有 一 个 显而易见 的 算法 ， 可 以 用 两 层 的 循环 ， 外 层 循环 把 haystack 中 的 每 一 个 字符 的 
位 置 依次 假定 为 子 串 的 开头 ， 内 层 循 环 从 这 个 位 置 开 始 逐 个 比较 haystack 和 neeqale 的 每 个 字符 是 
否 相 同 。 想 想 这 个 算法 最 多 需要 做 多 少 次 比较 ?其 实 有 比 这 个 算法 高 效 得 多 的 算法 ， 有 兴趣 的 
读者 可 以 参考 [算法 导论 ]。 














































































































































































































































































































1.7. 分 割 字 符 串 


















































很 多 文件 格式 或 协议 格式 中 会 规定 一 些 分 隔 符 或 者 叫 界定 符 (Delimiter) ， 例 如 /etc/passwa 文 
件 中 保存 看 系统 的 帐号 信息 : 



























































| $ cat /etc/passwd 

| root:x:0:0:root:/root:/bin/bash 

! daemon:x:1:1:daemon:/usr/sbin:/bin/sh 
nm foim s Dam sln 


























每 条 记录 占 一 行 ， 也 就 是 说 记录 之 间 的 分 隔 符 是 换行 符 ， 每 条 记录 叉 由 若干 个 字段 组 成 ， 这些 
字段 包括 用 户 名 、 密 码 、 用 户 id、 组 jd、 个 人 信息 、 主 目录 、 登 录 Shell， 字 段 之 间 的 分 隔 符 
是 :号 。 解 析 这 样 的 字符 捉 需 要 根据 分 隔 符 把 字符 串 分 割 成 几 段 ，C 标 准 库 提供 的 strtok 函 数 可 
以 很 方便 地 完成 分 割 字符 串 的 操作 。tok 是 Token 的 缩写 ， 分 割 出 来 的 每 一 段 字 符 串 称 为 一 





































































































i #include <string.h> 


‘ char -Stereok(enar Sita const ehar :ded me 
Zohacesstrtokep(chdnmesstheconsitwcharcesdelumpmchaseusavepiti) 























: 返回 值 : 返回 指向 下 一 个 Token 的 指针 ， 如 果 没 有 下 一 个 Token 了 就 返回 NUILTL 







































































参数 stz 是 待 分 割 的 字符 串 ，aelim 是 分 隔 符 ， 可 以 指定 一 个 或 多 个 分 隔 符 ，strtok 遇 到 其 中 任 


何 一 个 分 隔 符 就 会 分 割 字 符 串 。 看 下 面 的 例子 。 


M" roo 


符 会 被 忽略 ， 如 果 字 符 串 中 连续 出 现 两 个 分 隔 符 就 认为 是 一 个 分 隔 符 ， 而 不 会 认为 两 个 分 隔 符 























例 25.2. strtok 


i #include <stdio.h> 
i tinclude <string.h> 


: int main(void) 


Ed 

che srili = voor -30 ro60 27 mow /neem 
: char *token; 

token = strtok(str, ":"); 

printf("£sNn", token); 

: while ( (token = strtok(NULL, ":")) != NULL) 
printf("%Ss\n", token); 

return 0; 

:] 





ONU IM ID 
moo: 

:x 

;0 

aco 

V root 

: /bin/bash 











t:x::0:root:/root:/bin/bash:" 这 个 例子 可 以 看 出 ， 如 果 在 字符 串 开 头 或 结尾 出 现 分 隔 
























































Rp 




















过 strt 












































一 个 空 字符 串 的 Token 。 第 一 次 调用 时 把 字符 串 传 给 str*tok ， 以 后 每 次 调用 时 第 一 个 参数 
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HE woLLHLRIEA Y , strtok BMA CSIC LAE SE RAT AR (OPA 






































ok 函数 中 的 一 个 静态 指针 变量 记 住 的 ) 。 

















FH gab tt 


符 改 成 





( 

6 

( 
i 9 
: (gdb) display str 
01 

( 

ili 

3l 















































Hstrtok 把 str !' 的 一 个 分 隔 


踪 这 个 程序 ， 会 发 现 st 字符 串 被 strtok 不 断 修 改 ， 每 次 育 
"0' ， 分 割 出 一 个 小 字符 串 ， 并 返回 这 个 小 字符 串 的 首 地 址 。 

: (gdb) start 

;Breakpoint 1 at Ox8048415: file main.c, line 5. 


: Starting program: /home/djkings/a.out 
wien Omat medin es 














OO s Aor oas P 
tokeni = SieiwicoOlk (sum, Ws!) s 


Srn = Wroorsx Oroes neo :m/s 
db) n 
printf("£sNn", token); 
str — "rootN000x::0:root:/root:/bin/bash:" 


© OMe 


j 


| 才 提 





root 
: 11 while ( (token = strtok(NULL, ":")) != NULL) 
pila srr = Joo DUI 0 oo FOOL. (Dim bash. 
(gdb) 
12 ent eS elem 
|! 1: str = "root\000x\000:0:root:/root:/bin/bash:" 
: (gdb) 
Mac 
p Jb while ( (token = strtok(NULL, ":")) != NULL) 
pie gen = Vroor\ 000000: 0: r003 roots, ban/bash. ™ 














EL fEstrtok KA MAA — Bee ET EAE EAKA 




















ien 


到 字符 串 中 的 什么 位 置 ， 所 以 













































































好 的 ， 以 


不 需要 每 次 调 











IH 









































用 时 都 把 字符 种 中 的 当前 处 理 位 置 传 给 stztok， 但 是 在 函数 中 使 用 静态 变量 是 不 












































后 会 讲 到 这 样 的 函数 是 不 可 重 入 的 。strtok_z 函 数 则 不 存在 这 个 问题 ， 它 的 内 部 没有 















































PE 











dc 


E 态 变量 ， 调 


旨 针 变量 的 地 址 传 给 strtok_r 的 第 三 个 参数 ， 和 告诉 strtok_r 从 哪里 开始 处 理 ，strtok_r 返 回 
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用 者 需要 自己 分 配 一 个 指针 变量 来 维护 字符 串 中 的 当前 处 理 位置 ， 每 次 调用 时 把 































































































AM 
表示 可 重信 (Reentrant) ， 这 个 函数 不 属于 C 标 准 库 ， 是 在 POSIX 标 准 中 定义 的 。 关 





| str 








巴 新 的 处 于 












































里 位 置 写 回 到 这 个 指针 变量 中 (这 是 一 个 Value-result 参 数 ) 。strtok_r 末 尾 的 r 就 



































vA 





























tok_r 的 用 法 Man Page. 上 有 一 个 很 好 的 例子 : 


例 25.3. strtok r 


: #include <stdio.h> 
niece .Sto eh 
: #include <string.h> 


EE main(int argc, char *argv[]) 


im 


! subdelim\n", 


d 


! &saveptrl); 


: argv[3], &saveptr2); 


ela str IMASE mS tokienmmsulbtokkenms: 
char *saveptrl, *saveptr2; 
aene Jg 


if (argc != 4) { 
fprintf(stderr, "Usage: $s string delim 


argv[0]); 
exit (EXIT FAILURE); 
} 


oie (3 = i, sral = esewLLl]g g dase, Sus = A) 
token = strtok r(strl, argv[2], 
if (token -- NULL) 

break; 


ornari (WS Sein, ae OO). 


for (str2 = token; ; str2 = NULL) { 
subtoken = strtok_r(str2, 


if (subtoken == NULL) 
break; 
prine (7 —oS fg wa. Su om 


} 


exit (EXIT_SUCCESS) ; 





rS o/a owe ay bb (pecs ood eu Mapu VY 
eila /3///ee 





























a/bbb///cc;xxx:yyy: IOP FEB AS J BATE , 级 分 隔 符 是 :号 或 ; 5 ; 把 这 个 字符 串 分 割 

成 a/bpb///cc、xxx、 yyy — T T 8, TR J BATE Ee! , 只 有 第 一 个 子 串 中 有 二 级 4 J BATE , 它 被 进 
一 步 分 割 成 a、bbb、cc 三 个 子 串 。 由 于 strtoxk_z 不 使 用 静态 变量 ， 而 是 要 求 调用 者 自己 保存 字 
符 串 的 当前 处 理 位 置 ， 所 以 这 个 例子 可 以 在 按 一 级 分 隔 符 分 割 整 个 字符 串 的 过 程 中 穿插 着 用 二 
级 分 隔 符 分 割 其 中 的 每 个 子 串 。 建 议 读者 用 sab 的 aisplay 命 令 跟 
Pxargv(1] ^ saveptrlflsaveptr2, 以 理 解 s trtok rB TEJ 式 。 




















































































































































































































Man Page 的 BUGS 部 分 指出 了 用 strtok 和 strtok_r 函 数 需要 注意 的 问题 : 
。 这 两 个 函数 要 改写 字符 串 以 达到 分 割 的 效果 
。 这 两 个 函数 不 能 用 于 常量 字符 上 串 ， 因 为 试图 改写 .roqata 段 会 产生 段 错 误 
。 在 做 了 分 割 之 后 ， 字 符 串 中 的 分 隔 符 就 被 ,\o' 覆盖 了 


e strtoklf| KAEH Y ESEE, 它 不 是 线程 EKE, DAS 时 应 该 用 可 重 入 的 strtok_r 函 数 ， 
以 后 再 详细 介绍 “可 重 入 "和 "线程 安全 "这 两 个 概念 


































































































习题 














1、 出 于 练习 的 目的 ，strtok 和 strtok_r 哨 数 非常 值得 自己 动手 实现 一 遍 ， 在 这 个 过 程 中 不 仪 可 
以 更 深刻 地 理解 这 两 个 函数 的 工作 原理 ， 也 为 以 后 理解 “可 重 入 "和 "线程 安全 "这 两 个 重要 概念 打 
下 基础 。 















































4 H 
























































上 一 页 下 一 页 


第 25 章 C 标 准 库 2. 标准 I/O 库 函数 





2. 标准 /QO 库 函数 


第 25 章 C 标 准 库 





2. 标准 VO 库 函数 
2.1. 文件 的 基本 概念 


我 们 已 经 多 次 用 到 了 文件 ， 例 如 源 文件 、 目 标 文件 、 可 执行 文件 、 库 文件 等 ， 现 在 学 习 如 何 
用 C 标 准 库 对 文件 进行 读 写 操作 ， 对 文件 的 读 写 也 属于 I/O 操 作 的 一 种 ， 本 市 介绍 的 大 部 分 函数 
在 头 文件 staio.n 中 声明 ， 称 为 标准 |/O 库 函数 。 


文件 可 分 为 文本 文件 (Text File) 和 二 进 制 文件 (Binary File) 两 种 ， 源 文件 是 文本 文件 ， 而 目 
标 文 件 、 可 执行 文件 和 库 文件 是 二 进 制 文件 。 文 本 文件 是 用 来 保存 字符 的 ， 文 件 中 的 字 市 都 
字符 的 某 种 编码 (例如 ASCII 或 UTF-8) ， 用 cat 命 令 可 以 查看 其 中 的 字符 ， 用 vi 可 以 编辑 其 
的 字符 ， 而 二 进 制 文件 不 是 用 来 保存 字符 的 ， 文 件 中 的 字 节 表示 其 它 含义 ， 例 如 可 执行 文件 
有 些 字 节 表示 指令 ， 有 些 字 节 表示 各 Section 和 Segment 在 文件 中 的 位 置 ， 有 些 字 节 表示 

各 Segment 的 加 载 地 址 。 


58 5.1 节 “目标 文件 "中 我 们 用 hexaump 命 令 查看 过 一 个 二 进 制 文件 。 我 们 再 做 一 个 小 实验 ， 
用 vi 编辑 一 个 文件 texttile， 在 其 中 输入 s678 然 后 保存 退出 ， 用 +。 -1 命令 可 以 看 到 它 的 长 度 
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E ls -1 textfile 
Ws 1 akaedu akaedu 5 2009-03-20 10:58 textfile 




















5678 四 个 字符 各 占 一 个 字 节 ，vi 会 自动 在 文件 末尾 加 一 个 换行 符 ， 所 以 文件 长 度 是 5。 用 oa 命令 
查看 该 文件 的 内 容 : 






































E od -txl -tc -Ax textfile 
: 000000 3 36 37 Sit We 
i 5 6 7 9 Wm 


: 000005 























-tx1 选 项 表示 将 文件 中 的 字 节 以 十 六 进 制 的 形式 列 出 来 ， 每 组 一 个 字 节 ，-tc 选 项 表示 将 文件 中 
的 ASCII 码 以 字符 形式 列 出 来 。 和 hexqump 类 似 ， 输 出 结果 最 左边 的 一 列 是 文件 中 的 地 址 ， 上 默认 
以 八进制 显示 ，-ax 选 项 要 求 以 十 六 进 制 显 示 文 件 中 的 地 址 。 这 样 我 们 看 到 ， 这 个 文件 中 保存 
了 5 个 字符 ， 以 ASCII 码 保存 。ASCII 码 的 范围 是 0~127， 所 以 ASCII 码 文本 文件 中 每 个 字 节 只 用 
到 低 7 位 ， 最 高 位 都 是 0。 以 后 我 们 会 经 常用 到 oa 命令 。 


文本 文件 是 一 个 模糊 的 概念 。 有 些 时 候 说 文本 文件 是 指 用 vi 可 以 编辑 出 来 的 文件 ， 例 如 /etc 目 
录 下 的 各 种 配置 文件 ， 这 些 文件 中 只 包含 ASCII 码 中 的 可 见 字 符 ， 而 不 包含 像 '\o' 这 种 不 可 见 字 
符 ， 也 不 包含 最 高 位 是 1 的 非 ASCII 码 字 和 。 从 广义 上 来 说 ， 只 要 是 专门 保存 字符 的 文件 都 算 文 
本 文件 ， 包 含 不 可 见 字符 的 也 算 ， 采 用 其 它 字 符 编码 〈 例 如 UTF-8 编 码 ) 的 也 算 。 
















































































































































































































































































































































































2.2. fopen/fclose 



























































在 操作 文件 之 前 要 用 topen 打 开 文 件 ， 操 作 完毕 要 用 fclose 关 闭 文件 。 打 开 文 件 就 是 在 操作 系统 
分 配 一 些 资 源 用 于 保存 该 文件 的 状态 信息 ， 并 得 到 该 文件 的 标识 ， 以 后 用 户 程序 就 可 以 用 这 
个 标识 对 文件 做 各 种 操作 ， 关 闭 文件 则 释放 文件 在 操作 系统 中 占用 的 资源 ， 使 文件 的 标识 失 

















































































































path 是 文件 
标识 这 个 文件 。 
行 操作 。FILE 是 C 标 准 库 
准 |/O 库 


Se EL Afe f2 





户 程序 就 无 法 再 操作 这 个 文件 








: #include <stdio.h> 


um *fopen(const char *path, const char *mode); 

















[指针 


返回 值 : 成 功 返 回 文 伯 




















出 销 返 回 NULL 并 设置 errno 














的 路 径 名 ， 









































以 后 调用 其 它 函 数 对 文件 





mode#e NTI ATH. YF 








文件 打开 成 功 ， 























做 读 写 操作 都 


提供 这 个 指 
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(Encapsulation) 。 


(Handle) 
H H BEP 
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的 fi1 
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ELSF 
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Vivi oacnf 
是 写 。 fopen("/tmp/file2", "w") 
E, pa 
feii 





E, (Al BAA DASE Imi 


UE SLA ZG RAE 
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哪些 
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EFT TEJA KZ 





接口 之 间 传 来 传 去 ， 
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HOCH 
成 员 ， 我 人 











该 文件 在 内 核 
摘 述 符 ) > 

















区 和 


VO% 





就 返回 一 个 FILE * 文 件 
针 ， 以 指明 对 哪个 文 从 
标识 (在 第 2 节 “C 标 


指针 来 
进 











当前 读 写 

















] 很 快 就 会 看 到 ， 
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SETS ATT 
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FEBEV [ROUES LR 


像 FILE * 这 村 


调用 者 不 应 该 
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, FILE * 指 
14 


这 个 把 手 ， 而 不 能 




















直接 抓 | 

















比如 fp 
th 也 可 以 是 相对 路 径 ， 








的 a.onut ， 


针 就 像 一 个 把 手 
] 或 抽 


HHmoae , path 可 以 是 相对 路 径 也 可 以 





针 称 为 不 透明 和 
(Handle) 








这 种 编程 思想 在 面向 对 象 方法 论 














封装 





! 称 为 3 





b 
HY 


» IME 
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LE 


TH: o 





Fi 








; 表示 打开 绝 


比如 fp = fopen("file.a", "r") 
e.a, 只 做 读 操作 ， 再 比如 fp = fopen (Ts: 


fp = fopen("Desktop/file3", 


/a.out", 


"w") " AS 

















e3。 相 对 路 径 是 相对 于 当前 工作 
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Hor, /etc$ 表 示 当 前 工作 
在 Shell F 
进程 也 可 


mode BAL 

(Append ) 
些 操作 系统 SMASH 
件 都 是 由 一 
It fip, rwat 





目录 ，Shell 进 程 的 当前 工作 


目录 (Current Working Directory) 的 路 径 ， 








己 的 当前 工作 


AE 


月 录 可 以 用 pwa 命 





针 (Opaque Pointer) 或 





调用 着 只 是 把 














旨 的 FILE 结 构 体 的 成 员 在 库 函 数 内 部 维 
者 叫 句柄 





























这 个 把 手 就 可 以 打开 门 或 提 








E, (E 




















绝对 路 径 ， 
对 路 径 /tmpyfile2， 只 
; 表示 在 当前 工作 


改写 操 











mode 表 示 打 开 方 式 是 读 还 
Hae ep 








,只 读 打 开 当 前 作 目 录 





上 一 层 目 

















目录 下 了 








目录 pe 


打开 当前 工作 





命令 
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每 个 进程 


sktop 下 


ER 








S pwd 























目录 是 /e 
敲 命令 启动 新 的 进程 ， 见 

















Shell Aca sk AEGEAN TS 
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| 该 进程 的 当前 工作 





守 前 面 显示 当前 














[ 作 目 录 ， 例 如 ~s$ 表 示 当 前 工 











cd 命令 可 
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[以 改变 Shell 进 程 的 当前 工作 
目录 继承 





日 录 。 
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Shell 进 程 的 当前 工 
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作 目 录 是 
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EAS chair (2) 函数 改变 牛 





A. AN OI EH 


x CDM, 
， 在 文件 末 


由 rwatp+ 六 个 字 




















己 的 当 


字符 


忆 奶 加 数据 使 文人 


前 工作 


TACT 

















F 和 二 进 





SCA 





F 格 式 不 同 ， 














字 节 组 成 ， 









































t 和 和 b 没 有 区 分 ， 用 哪个 都 一 样 ， 
,四 个 字符 有 以 下 6 种 合法 的 组 合 : 


而 在 UNI 



































只 读 ， 文 件 必须 已 存在 

只 写 ， 如 果 文 件 不 存在 则 创建 ， 如 果 文 件 已 存在 则 把 文人 
再 重新 写 ， 也 就 是 替换 掉 原 来 的 文件 内 容 

只 能 在 文件 末尾 追加 数据 ， 如 果 文 件 不 存在 则 创建 



































F 的 尺寸 增 大 。t 表 示 文 本 文件 ， 


目录 ， 该 














徊 成 ，* 表 示 读 ，w 表 示 写 ，a 表 示 追 加 











been Xf 
X 系 统 中 ， 无 论文 本 文 从 
也 可 以 省 略 不 写 。 如 果 省 
































B Gar 
还 是 二 





xti 





长 度 截断 (Truncate) 为 0 字 节 


允许 读 和 写 ， 文 件 必须 已 存在 




















允许 读 和 写 ， 如 果 文件 不 存在 则 创建 ， 如 果 文 件 已 存在 则 把 文件 长 度 截断 为 0 字 贡 再 
写 











Liri 
ipid 
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允许 读 和 奶 加 数据 ， 如 果 文 件 不 存在 则 创建 


在 打开 一 个 文件 时 如 果 出 错 ， fopen 将 返 回 Nurz 并 设置 errno ， errno 稍 后 介绍 。 在 程序 1 应 该 做 
出 错 处 理 ， 通 常 这 样 写 : 




































































onem (oro en me /my | mE 
exit(1); 





比如 /tmp/filel 这 个 文件 不 存在 ， 而 r 打 开 方式 义 不 会 创建 这 个 文件 ，fopen 就 会 出 错 返 回 。 
FU eclose FX BX 


i #include <stdio.h> 





























: int fclose(FILE *fp 











: 返回 值 : 成 功 返 回 0 ， no 回 EOF 并 设置 errno 





















































把 文件 指针 传 给 fclose 可 以 关闭 它 所 标识 的 文件 ， 关 闭 之 后 该 文件 指针 就 无 效 了 ， 不 能 再 使 月 
了 了 。 如 果 fclose 调 用 出 错 (比如 传 给 它 一 个 无 效 的 文件 指针 ) 则 返回 por 并 设置 errno， errno 稍 


后 介绍 ， EOFÍEstdio.h HAE X: 
























































i /* End of file character. 
Some things throughout the library rely on this being -1. */ 
: #ifndef EOF 
: # define EOF (-1) 
: #endif 












































它 的 值 是 -1。fopen 调 用 应 该 和 fclose 调 用 配对 ， 打 开 文 件 操作 完 之 后 一 定 要 记得 关闭 。 如 果 不 
调用 fclose， 在 进程 退出 时 系统 会 目 动 关闭 文件 ， 但 是 不 能 因此 就 忽略 fclose 调 用 ， 如 采写 一 个 
长 年 素 月 运行 的 程 月 《比如 网 络 服务 咒 程 序 ) ， 打 开 的 文件 都 不 关闭 ， 堆 积 得 越 来 越 多 ， 就 会 

占用 越 来 越 多 的 系统 资源 。 





































































































2.3. stdin/stdout/stderr 





























我 们 经 常用 brintf 打 印 到 屏幕 ， 也 用 过 scanf 读 键盘 输入 ， 这 HEt JE FIORE, 但 不 是 对 文件 
做 VO 操 作 而 是 对 终端 设备 做 MO 操作。 所 谓 终 端 (Terminal) 是 指 人 机 交互 的 设备 ， 也 就 是 可 以 
接受 用 户 输入 并 输出 信息 给 用 户 的 设备 。 在 计算 机 刚 诞生 的 年 代 ， 终 端 是 电 传 打 字 机 和 打印 

机 ， 现 在 的 终端 通常 是 键盘 和 显示 器 。 终 端 设 备 和 文件 一 样 也 需 : AUT TERR ale 终端 设备 也 
有 对 应 的 路 径 名 ，/vaev/tty 就 表示 和 当前 进程 相关 联 的 终端 设备 (在 第 1.1 节 基本 要 

YS 会 讲 到 这 叫 进 程 的 控制 终端 ) 。 也 就 是 说 ，/qev/tty 不 是 一 个 普通 的 文件 ， ser 
的 一 组 数据 ， 而 是 表示 一 个 设备 。 用 1s 命 令 查看 这 个 文件 : 


































































































































































































is ls -1 /dev/tty 
: CEW-IW-IrW— d. zoot chlialowse 5, © 2009-03-20 1923231 Jc 
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应 的 驱动 程序 ， 完成 对 该 设备 的 操作 。 我 
显示 设备 号 ， 这 表明 设备 文 伯 
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UNIX 的 传统 是 Everything is a file, EAn | 
ERREUR 
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可 以 根据 上 下 文理 解 
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那 为 么 printf 和 scanf 不 
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stdout 和 stderr， 
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fputs ("Error open file /tmp/filel\n", stderr); 
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2.4. errnoperrorr£ Zi 
















































































































































































重 定 向 到 一 个 常规 文件 ， 
基 误 提示 分 开 ， 而 不 是 混在 一 起 打印 到 屏幕 了 
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果 打 印 到 标准 输出 ， 
TE ACH 





ER, 
peta te? 以 后 
而 标准 错误 输出 仍然 对 应 终 








很 多 系统 函数 在 错误 返回 时 将 错误 原因 记录 在 libc 和 定义 的 全 局 变量 errno 中 ， 每 种 错误 原因 对 应 
一 个 错误 码 ， 请 查阅 errno (3) 的 Man Page 了 解 各 种 错误 码 ， undi ance. h 中 声明 ， 是 
一 个 整 型 变量 ， 所 有 错误 码 都 是 正 整数 。 

如 果 在 程序 中 打印 错误 信息 时 直接 打印 errne 变 量 ， 打 印 出 来 的 只 是 一 个 整数 值 ， 仍 然 看 不 出 是 
什么 错误 。 ERU ies sand OR ercno EBERT RE S EFT Ell 














i Jinclude <stdio.h> 


i void perror(const char *s); 

















perror HAEE E 

















息 打印 到 标准 错误 





根据 当前 errno 的 值 打 





例 25.4. perror 


印 错误 























原 











输出 ， 首 先 打印 参数 s 所 指 的 字符 串 ， 
Al. dpa: 














: #include <stdio.h> 
i #include <stdlib.h> 


然后 打印 :号 ， 然 后 


| int main(void) 


: { 

IP IIH 5159. c itj (Meola, Viel) 5 
if (fp == NULL) { 

perror("Open file abcde"); 
: exit (1); 

| } 

return 0; 

bE 





如 果 文 件 abcae 不 存在 ， fopen 返 回 -1 并 设置 errno 为 ENOENT， ARG perror MRI errno HH, 
将 asNoNT 解 释 成 字符 串 wo such file or qirectory 并 打印 ， iJ] HIR 寺 果 是 open file 
abcde: No such file or directoryo 虽然 perror 可 以 打印 出 错误 原因 , HR perror 的 字符 串 
数 仍然 应 该 提供 一 些 额外 的 信息 ， 以 便 在 看 到 错误 信息 时 能 够 很 HORE ALLARD 哪里 出 了 错 ， 
如 果 在 程序 中 有 很 多 个 fopen 调 用 ， 每 个 fopen 打 开 不 同 的 文件 ， 那 么 在 每 个 fopen 的 错误 处 理 中 
打印 文件 名 就 很 有 帮助 。 


如 果 把 上 面 的 程序 改 成 这 样 : 


: #include <stdio.h> 
i #inelude <stdlib.h> 
: #include <errno.h> 


















































Sh 






































































































































































































































Ee main (void) 


‘ant 

FILE *fp = fopen("abcde", "r"); 

if (fp == NULL) { 

perror("Open file abcde"); 

: oe (Uso S Selina > Sm) 
exit (1); 

i } 

return 0; 

i) 









































则 printf 打 印 的 错误 号 并 不 是 fopen 产 生 的 错误 号 ， 而 是 perror 产 生 的 错误 号 。errno 是 一 个 全 局 
变量 ,很 多 系统 函数 都 会 改变 它 ，fopen 浮 数 Man Page 中 的 ERRORS 部 分 描述 了 它 可 能 产生 的 
错误 码 ，perror 函 数 的 Man Page 中 没有 ERRoRs 部 分 ,说 明 它 本 身 不 产生 错误 码 ， 但 它 调 用 的 其 
它 函 数 也 有 可 能 改变 szrnoe 变 量 。 大 多 数 系统 函数 都 有 一 个 Side Effect， 就 是 有 可 能 改变 errno 变 
üt (当然 也 有 少数 例外 ， 比 如 strcpy) ， 所 以 一 个 系统 函数 错误 返回 后 应 该 马上 检查 errnoe， 在 
检查 erzrno 之 前 不 能 再 调用 其 它 系统 函数 。 


strerror 国 数 可 以 根据 错误 号 返回 错误 原因 字符 串 。 
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i #include <string.h> 


| char *strerror (int errnum); 




















| 返回 值 : 错误 人 码 errnum 所 对 应 的 字符 


村 
Tn 
pm 




















这 个 函数 返 es es 以 后 学 线程 库 时 我 们 会 看 到 ， 有 些 函 数 的 错误 码 并 不 保存 
[e '， 而 是 通过 返回 值 返回 ， 就 不 能 调用 perror 打 印 错误 原因 了 ， 这 时 strerror 就 派 上 了 





































































































i fputs(strerror(n), stderr); 





习题 








1、 在 系统 头 文件 中 找到 各 种 错误 码 的 宏 定义 。 
2、 做 几 个 小 练习 ， 看 看 fopen 出 错 有 哪些 常见 的 原因 。 
打开 一 个 没有 访问 权限 的 文件 。 


















































fp = fopen("/etc/shadow", "r"); 


NO 

i perror ("Open /etc/shadow") ; 
exit (1); 

: } 














fopen 也 可 以 打开 个 目录 ， 传 给 fopen 的 第 一 个 参数 目录 名 末尾 可 以 加 /也 可 以 不 加 /， 4R H ft 
许 以 只 读 方 式 打 开 。 试 试 如 果 以 可 写 的 方式 打开 一 个 存在 的 目录 会 怎么 样 呢 ? 


























: fp = fopen("/home/akaedu/", "r+"); 


iif (fp == NULL) { 

: perror ("Open /home/akaedu") ; 
| exit(1); 

:] 

















请 读者 自己 设计 几 个 实验 ， 看 看 你 还 能 测试 出 哪些 错误 原因 ? 
2.5. 以 字 市 为 单位 的 /QO 汤 数 


fgetc 晒 数 从 指定 的 文件 ! 读 一 个 字 市 ， getchar 从 标准 输入 读 一 个 字 节 ， WH getchar o 相当 于 
调用 fgetc (stdin) o 






















































































; #include <stdio.h> 


| int fgetc(FILE *stream); 
|! int getchar (void); 






































GRIM: 成 功 返 回 读 到 的 字 节 ， 出 错 或 者 读 到 文件 末尾 时 返回 EOF 





























注意 在 Man Page 的 函数 原型 中 FILE * 指 针 参 数 有 时 会 起 名 叫 stream， 这 是 因为 标准 MO 库 操 作 
的 文件 有 时 也 叫做 流 (Stream) ， 文 件 由 一 串 字 节 组 成 ， 每 次 可 以 读 或 写 其 中 任意 数量 的 字 
节 ， 以 后 介绍 TCP 协 议 时 会 对 流 这 个 概念 做 更 详细 的 解释 。 


对 于 fgetc 函 数 的 使 用 有 以 下 几 点 说 明 : 
© 要 用 fgetc 函 数 读 一 个 文件 ， 该 文件 的 打开 方式 必须 是 可 读 的 。 


。 系统 对 于 每 个 打开 的 文件 都 记录 着 当前 读 写 位 置 在 文件 中 的 地 址 (或 者 说 距离 文件 开头 的 
FPR) , EU (Offset) 。 当 文件 打开 时 ， 读 写 位 置 是 0， 每 调用 一 次 fgetc， 读 
写 位 置 向 后 移动 一 个 字 广 ， 因 此 可 以 连续 多 次 调用 fgetc 函 数 依 次 读 取 多 个 字 届 。 


fgetc 成 功 时 返回 读 到 一 个 字 市 ， 本 来 应 该 是 unsigned char 型 的 ， 但 由 于 通 数 原型 中 返回 
值 是 int 型 ， 所 以 这 个 字 节 要 转换 成 int 型 再 返回 ， 那 为 什么 要 规定 返回 值 是 int 型 呢 ? 因 
为 出 错 或 读 到 文件 末尾 时 fgetc 将 返回 or ， 即 -1， 保 存在 int 型 的 返回 值 中 是 0xffffffff， 如 
果 读 到 字 节 0Oxff， HHunsigned char $51 inc? 型 是 0x000000ff， 只 有 规定 返回 值 是 int 型 
才能 巴 这 两 种 情况 区 分 v 如 果 规 定 返回 值 是 unsignea char 型 , 那么 当 返 回 值 是 0xff 时 无 
法 区 分 到 底 是 zof 还 是 字 节 0xff。 如 果 需 要 保存 fsetc 的 返回 值 ， 一 定 要 保存 在 int 型 变量 

URE Ei unsigned char c = fgetc(fp);, 那么 根据 。 的 值 又 无 法 区 分 sor 和 0xff 字 节 
了 。 注 意 ，fgetc 读 到 文件 末尾 时 返回 gor ， 只 是 用 这 个 返回 值 表示 已 读 到 文件 末尾 ， 并 不 
是 说 每 个 文件 末尾 都 有 一 个 字 节 是 sog (根据 上 面 的 分 析 ，EOF 并 不 是 一 个 字 节 ) 。 








































































































































































































































































































































































































































































































































































































































































































£put c KAUAI ENE 


Htputcic, stdout) o 








: #include <stdio.h> 


‘int fputc(int c, FILE *stream 
P 3bewE lite Charani (6). P 


返回 值 : mE ABI S, nf 














HR 


PASE, putchar Mnet LES 





Weve 


F, 














Val HH putchar (e) 相当 于 调 


); 


回 EOF 











































































































































































































对 于 fputc 冰 数 的 使 用 也 要 说 明 儿 点 : 
。 要 用 fputc 困 数 写 一 个 文件 ， 该 文件 的 打开 方式 必须 是 可 写 的 〈 包 括 追 加 ) o 
。 每 调用 一 次 fputc， 读 写 位 置 向 后 移动 一 个 字 节 ， 因 此 可 以 连 纪 RAF TAA spate tl 数 依次 写 
入 多 个 字 市 。 但 如 果 文件 是 以 追加 方式 打开 的 ， 每 次 调用 fputc 时 总 是 将 读 写 位 置 移 到 文 
件 末 尾 然 后 把 要 写 入 的 字 市 奶 加 到 后 面 。 
下 面 的 例子 演示 了 这 四 个 函数 的 用 法 ， 从 键盘 读 入 一 串 字 符 写 到 一 个 文件 中 ， 再 从 这 个 文件 中 


读 出 这 些 字符 打印 到 屏幕 上 。 


ff 25.5. 用 fputc/fget 读 写 文 伯 





: #include <stdio.h> 
: #include <stdlib.h> 


: int main(void) 
 { 
FILE *fp; 
NE Clap 
ad ( (Ee 
{ 


exit(1); 
} 


while 


( (ch 


rewind (fp); 
while ( (ch 


fclose (fp); 
return 0; 


fopen("file2", 


getchar () ) 
ifo edel 


fgetc(fp)) 
putchar (ch); 











PAZ itt 


"w+") ) == NULL) 


perror("Open file file2\n"); 


!= EOF) 
fp); 


!= EOF) 





从 终端 设备 读 有 点 特殊 。 当 调 用 getchar () 














或 fgetc (stdin) 时， Pup 





AJH P SUB UAE 

































































































































































ÍF, getchar KAMBLE EESE, MEREEN ARE E, 也 就 不 能 执行 后 面 的 代码 ， 
这 个 进程 阻塞 了 ， 操作 系统 可 以 调度 别 的 进程 执行 。 从 终端 设备 读 还 有 一 个 特点 ， 用 户 输 入 一 
PATE A A ikget char KAGEM], 仍然 阻塞 着 ， 只 有 当 用 户 输 入 回 车 或 者 到 达 文 件 未 尾 
时 setchar 才 返 回 [3] , 这 个 程序 的 执行 过 程 分 析 如 下 : 

a et Ra tee MEI 

: hello (输入 hello 并 回 车 ， 这 时 第 一 次 调用 getchar 返 回 ， 读 取 字 符 h 存 到 文件 中 ， 然 

ee Au ae 符 存 到 文件 中 ， 第 七 次 调用 getchar 又 阻塞 

J) 

: hey (输入 hey 并 回 车 ， 第 七 次 调用 getsbazr 返 加 |， 卖 取 字 符 h 存 到 文件 中 ， 然 后 连续 调 

: 用 get char 三 次 ， 读 取 ey 和 换行 符 存 到 文件 中 BiU. ateher Bs ÆT) 

(这 时 输入 ctr1-D， 第 11 次 调用 get char 返 回 EOF， KEIER, 进入 下 一 个 循环 ， 回 到 









































: 文件 开头 ， 把 文件 内 容 一 个 字 节 一 个 字 节 读 出 来 打印 ， 直 到 文件 结束 ) 























从 终端 设备 输入 时 有 两 种 方法 表示 文件 结束 ， 一 种 方法 是 在 一 行 的 开头 输入 Ctr-D (如 果 不 在 一 
行 的 开头 则 需要 连续 输入 两 次 Ctrl-D) ， 另 一 种 方法 是 利用 Shell 的 Heredoc 语 法 : 













































































: $ ./a.out <<END 
|» hello 

:> hey 

: > END 

i hello 

whey 




















<<END 表 示 从 下 一 行 开 始 是 标准 输入 ， 直 到 某 一 行 开头 出 现 zNp 时 结束 。<< 后 面 的 结束 符 可 以 任 
意 指定 ， 不 一 定 得 是 zwp ， 只 要 和 输入 的 内 容 能 区 分 开 就 行 。 


在 上 面 的 程序 中 ， 第 一 个 while 循 环 结束 时 fp 所 指 文件 的 读 写 位 置 在 文件 末尾 ， 然 后 调 
用 revwind 函 数 把 读 写 位 置 移 到 文件 开头 ， 再 进入 第 二 个 while 循 环 从 头 读 取 文 件 内 容 。 
































































































































































































































习题 





















































运行 这 个 程序 可 以 把 airlyfilea 文 件 拷贝 到 air2yfileB 文 件 。 注 意 各 种 出 错 处 理 。 
S o 村 符 才 返回 ， 但 上 面 的 程序 并 没有 提供 证 据 支 持 我 的 说 法 ， 如 果 


看 成 每 敲 一 个 键 getcnar 就 返回 一 次 ， 也 能 解释 程序 的 运行 结果 。 请 写 一 个 小 程序 证 明 getcnar 确 
实 是 读 到 换行 符 才 返回 的 。 


2.6. 操作 读 写 位 置 的 函数 


我 们 在 上 一 节 的 例子 中 看 到 rewinad 函 数 把 读 写 位 置 移 到 文件 开头 ， 本 节 介 绍 另 外 两 个 操作 读 写 
位 置 的 函数 ，sseex 可 以 任意 移动 读 写 位 置 ，ttell 可 以 返 回 当前 的 读 写 位 置 。 

























































































































































































i #include <stdio.h> 


i int Poe IDE *stream, long offset, int whence); 


成 功 返 回 0 出 错 返 回 -1 并 设置 srrno 


: long ftell(FILE *stream); x 
: 返回 值 : 成 功 返 回 当 前 读 写 位 置 ， 出 错 返 回 -1 并 设置 errno 


































































































| void rewind(FILE *stream); 








fseek 有 的 whence 和 offset 参 数 共同 决定 了 读 写 位 置 移动 到 何 处 ，whence 参 数 的 含义 如 下 : 
SEEK_SET 

从 文件 开头 移动 offset 个 字 市 
SEEK_CUR 

从 当前 位 置 移动 offset 个 字 市 


SEEK_END 












































从 文件 








末尾 移动 offset 个 字 节 




















offset 可 下 可 人 负 ， 负 值 表示 向 前 (向 文件 开头 的 方向 ) 移动 ， 正 值 表示 疝 后 (向 文件 末尾 的 方 











H) 移动 ， 如 采 辐 前 移动 的 字数 超过 了 文件 开头 则 




















Hi, qa 























文件 末尾 ， 再 次 写 入 时 将 增 大 文件 尺寸 ， 从 原来 的 文 











字 节 都 是 0。 


先前 我 们 创建 过 一 个 文件 cextfiie， 其 中 有 五 个 字 市 ， 


件 做 实验 。 





例 25. 









































6. fseek 


: #include <stdio.h> 
: #include <stdlib.h> 


: int main(void) 
: { 
FILE* fp; 


exit(1); 


exit(1); 


} 

fjowWEC (IK, 19) 
fclose(fp); 
return 0; 








WT 


} 
if (fseek(fp, 10, SEEK_SET) 
perror("Seek file textfile"); 











RIA JEEP SI EL ] 





尾 到 fseek 移 动 之 后 的 读 写 位 置 之 间 的 


LQ) 


{ 





Hi 








5678 加 一 个 换行 符 ， 现 在 我 们 


if ( (fp = fopen("textfile","r+")) == NULL) { 
perror("Open file textfile"); 

















运行 这 个 程序 ， 然 后 查看 文件 textfile 的 内 容 : 























$ /an 
9 ol xl em Ake te ele 
: 000000 35 36 37 36 0a 00 00 00 00 00 45 


5 6 7 S9 ws VO W9 WO 


! 00000b 


x0 





























fseek(fp, 10, SEEK SET) 将 读 写 位 置 移 到 第 10 个 字 节 处 〈 其 实 是 第 


然后 在 该 位 置 写 入 一 个 字符 K， 这 样 textfile 文 件 就 变 长 了 ， 从 第 5 到 第 9 个 字 节 自 








为 0。 














2.7. 以 字符 串 为 单位 的 /QO 函数 
































fgets 从 指定 的 as 读 一 行 字符 到 调用 者 提供 的 组 ; 











者 提供 的 组 ? 





























1pe 3 




















54 











11 个 字 节 ， 从 0 开始 数 ) ， 





























动 被 填充 


ie 





p gets 从 标准 输入 读 一 行 字 符 到 调 


: #include <stdio.h> 


i char *fgets (char *s, int size, 
‘char *gets(char *s) 


返回 


FILE *stream) ; 














E: 成 功 时 s 指 向 ns 回 的 指针 就 指向 Bb, Hif 



































Ha 





读 到 文 伯 














未 





尾 时 返回 NULL 





gets AOC MERE, Man Page 的 BUGS 部 分 

































































LEL 


经 说 得 很 清楚 了 : Never use gets(). gets 函数 


的 存在 只 是 为 了 兼容 以 前 的 程序 ， 我 们 的 代码 者 不 应 该 调用 这 个 函数 。gsets 函 数 的 接口 设计 



































得 很 有 问题 ， 就 像 strcpy 一 样 ， 用 户 提供 一 个 缓冲 区 ， 却 不 能 指定 绥 冲 区 的 大 小 ， 很 可 能 导致 








~ 









































Rm Kh ER, 这 个 函数 比 strcpy 更 加 危险 ， st zcpy 的 输入 和 输出 都 来 自 程序 内 部 ， 只 要 程 月 
员 小 心 一 点 就 可 以 避免 出 问题 ， 而 gets 读 取 的 输入 直接 来 自 程 序 外 部 ， 用 户 可 能 通过 标准 输入 
提供 任意 长 的 字符 串 ， 程 序 员 无 法 避免 gets 肖 数 导致 的 缓冲 区 溢出 错误 ， 所 以 唯一 的 办 法 就 是 
^H. 


IEDM eget sIA, BAs ERKE hE, size tRPHKNKE, 该 函数 从 stream 上 所 指 的 
文件 中 读 取 以 '\n' 结 尾 的 一 行 CE Na CEA) 存 到 缓冲 区 s 中 ， 并 且 在 该 行 末尾 添加 一 
个 履 0' 组 成 完整 的 字符 串 。 


如 果 文 件 中 的 一 行 太 长 ，fgets 从 文件 中 读 了 size-1 个 字符 还 没有 读 到 '\n' ， 就 把 已 经 读 到 
的 size-1 个 字符 和 一 个 '0' 字 符 存 入 缓冲 区 ， 文 件 中 镜 下 的 半 行 可 以 在 下 次 调用 fgets 时 继续 
读 。 


如 果 一 次 fsets 调 用 在 读 入 若干 个 字符 后 到 达 文 件 来 尾 ， 则 将 已 读 到 的 字符 串 加 上 ' 心 o' 存 入 组 ? 
区 并 返回 ， 如 果 再 次 调用 feets 则 返回 Nurz ， 可 以 据 此 判断 是 否 读 到 文件 末尾 。 


注 划 ， 对 于 fgets 来 说 ，'\n' 是 一 个 特别 的 字符 ， 而 '\0' 并 无 任何 特别 之 处 ， 如 果 读 到 '\0' 就 当 
作 普 通 字 符 读 入 。 如 果 文件 中 存在 '\0' 字 符 (或 者 说 0x00 字 节 ) ， 调 用 fgets 之 后 就 无 法 判断 组 
冲 区 中 的 ， vo: 究竟 是 从 文件 读 上 来 的 字符 还 是 由 fgets 自动 添加 的 结束 符 ， 所 以 fgets 只 适合 读 
A 

'\0'o 


fputs 问 指定 的 文件 写 入 一 个 字符 串 ，puts 问 标准 输出 写 入 一 个 字符 串 。 











































































































































































































my 

























































































































































































































































































































































































: #include <stdio.h> 


"qr fputs(const char *s, FILE *stream); 
: int puts(const char *s 


EEE: BONE — T ERURERE, HEDEEEOF 





















































缓冲 区 s 中 保存 的 是 以 ， \0'" 结 尾 的 字符 串 ， fputs 将 该 字符 串 写 人 文件 stream， 但 并 不 写 入 结尾 
的 心 o' 。 与 fgets 不 同 的 是 ， fputs 并 不 关心 的 字符 串 ÁJ tn! 字符 ， 字符 串 中 可 以 有 '\n' 也 可 
以 没有 '\n' 。puts 将 字符 串 s 写 到 标准 输出 (不 包括 结尾 的 '\0') , 然后 上 自动 写 一 个 '\n' 到 标准 
输出 。 







































































习题 























1、 用 fgets/fputs 写 一 个 拷贝 文件 的 程序 ， 根据 本 节 对 fgets 通 数 的 分 析 ， 应 该 只 能 找 由 文本 文 
件 ， 试 试用 它 拷贝 二 进 制 文件 会 出 什么 问题 。 


2.8. 以 记录 为 单位 的 VO PRA 





























: #include <stdio.h> 


! size t fread(void *ptr, size t size, size t nmemb, FILE *stream); 
oddone E aE Seas void *ptr, size_t size, size_t nmemb, FILE 
: *stream) 

















: 返回 值 : 写 的 记录 数 ， 成 功 时 返回 的 记录 数 等 于 nmemb ， 出 错 或 读 到 文件 末尾 时 返回 
: 的 记录 数 小 于 nmemb , 岂可 能 返回 0 
























































fread 和 ftwrite 用 于 读 写 记录 ， 这 里 的 记录 是 指 一 串 固定 长 度 的 字 节 ， 比 如 一 个 int、 一 个 结构 
体 或 者 一 个 定 长 数组 。 参 数 size 指 出 一 条 记录 的 长 度 ， 而 anemb 指 出 要 读 或 写 多 少 条 记录 ， 这 些 
记录 在 ptr 所 指 的 内 存 空间 ' 连 续 存 放 ， tt size * nmemb 个 字 节 ， fread 从 文件 stream 中 读 

出 size nmemb 个 字 节 保存 到 ptr 中 而 fwrite 把 ptr size X nmemb 4 ^ 1 EP 


















































































































































件 stream ae) 


nmemb 是 请 求 读 或 写 的 记录 数 ， fread 和 fwrite 返 回 的 记录 数 有 可 能 小 于 nmemb 指 定 的 记录 数 。 例 
如 当前 读 写 位 置 距 文件 末尾 只 有 一 条 记录 的 长 度 ， 调 用 freaa 时 指定 nmemb 为 2， 则 返回 值 为 1。 

如 果 当 前 读 写 位 置 已 经 在 文件 末尾 了 ， 或 者 读 文件 时 出 错 了 ， 则 freag 人 返回 0。 如 采写 文件 时 出 
错 了 ， 则 fwrite 的 返回 值 小 于 nmemp 指 定 的 值 。 下 面 的 例子 由 两 个 程序 组 成 ， 一 个 程序 把 结构 体 
保存 到 文件 中 ， 另 一 个 程序 和 从 文件 中 读 出 结构 体 。 









































































































































































































































例 25.7. fread/fwrite 


: /* writerec.c */ 
i #include <stdio.h> 
: #include <stdlib.h> 


‘struct record { 
: char name[10]; 
: int age; 
ihe 


| int main (void) 

i { 

struct record array[2] = {{"Ken", 24}, 
EA nee lo 2S 

: FILE *fp - fopen("recfile", "w"); 


ie (o == Rm e 
perror ("Open file recfile"); 
exit (1); 

} 


fwrite(array, sizeof(struct record), 2, fp); 
fclose (fp); 
return 0; 


:/* readrec.c */ 
: #include <stdio.h> 
: #include <stdlib.h> 


‘struct record { 
: char name[10]; 
: int age; 
Db» 


: int main (void) 
; { 
i struct record array[2]; 

IBID ares e FOPPE Ure CT INe WoW 


ie Co == MO í 
perror ("Open file recfile"); 
exit (1); 

} 


fread (array, sizeof(struct record), 2, fp); 
| printf("Namel: %s\tAgel: d\n", array[0].name, 
i array[0].age); 
printf ("Name2: %s\tAge2: d\n", array[1].name, 
: array[1].age); 
: fclose(fp); 
return 0; 





| $ gcc writerec.c -o writerec 

: $ gcc readrec.c -o readrec 

: $ ./writerec 

S od mexi =t Ax reci iile 

: 000000 4b 65 6e 00 00 00 00 00 00 00 00 00 18 00 00 00 





| K e jm WO NO \O NO 30 Wo WO WO WO O80 \O XC 
: NO 

: 000010 4b 6e 75 74 68 00 00 00 00 00 00 00 1c 00 00 00 

i K x u € n WO — NO 30 w WO w WO O34 WO wW 
NO 


: 000020 

:$ ./readrec 

: Namel: Ken Agel: 24 
i Name2: Knuth Age2: 28 






































“struct _ record 结构 体 看 作 Ai OK , 由 于 结构 体 HAFT, 每 条 记录 占 16 字 
























































把 两 条 记录 写 到 文件 中 共 占 32 字 节 。 该 程序 生成 的 rectile 文 件 是 二 进 制 文件 而 非 文本 文 
因为 其 中 不 仅 保 存 着 字符 型 数据 ， 还 保存 着 整 型 数据 24 和 28 (在 oa 命令 的 输出 中 以 八进制 






























































































































































显示 为 030 和 034) 。 注 意 ， 直 接 在 文件 中 读 写 结构 体 的 程序 是 不 可 移植 的 ， 如 果 在 一 种 平台 上 
编译 运行 wzitebin.c 程 序 ， 把 生成 的 zecfile 文 件 找到 另 一 种 平台 并 在 该 平台 上 编译 运 
J 了 readbin.c 程 序 ， 则 不 能 保证 正确 读 出 文件 的 内 容 ， 对 为 不 同 平台 的 大 小 端 可 能 不 同 (因而 对 

















































































































整 型 数据 的 存储 方式 不 同 ) ， 结 构 体 的 填充 方式 也 可 能 不 同 〈 因 而 同一 个 结构 体 所 占 的 字 节 数 
J 能 不 同 ， aoe 成 员 在 name 成 员 之 后 的 什么 位 置 也 可 能 不 同 ) 。 


2.9. FEIO K Že 
MÆR IESSWE— lprinttfllscant KZ] ; 这 两 个 函数 都 有 很 多 种 形式 。 






































: #include <stdio.h> 


ES 

B aioe aonane (PIN, “Biden, CONSE Chel? oma 

ETE Sususmitssi (Chari istr MEC OI Si NE Co ono oox)) Pp 

和 mi siprime ehari sti Save ic Salve, CONST ear witerametc, 0 


| #include <stdarg.h> 


"nt vprint£ (const char *format, va list ap); 

EE vfprintf(FILE *stream, const char *format, va_list ap); 

aem Veo Me (Clee we r ECONS E eve wicoramene, wel las eyo) p 

Peloton ss Ino Taser (ehari str iiS Zeut ZOCO ehar Oc mat Nri darse, 
: ap); 
































返回 值 : RINEL CIEE PAAR NOI) ， 出 错 返 回 个 负 值 























printf 格 式 化 打印 到 标准 输出 ， 而 fprintf 打 印 到 指定 的 文件 st ream lo sprintf 并 不 打印 到 文 











件 ， 而 是 打印 到 用 户 提供 的 缓冲 区 stz 中 并 在 末尾 加 '\0' , 由 于 格式 化 后 的 字符 串 长 度 很 难 预 
计 ， 所 以 很 可 能 造成 缓冲 区 溢出 ， 用 snprintf 更 好 一 些 ， 参 数 size 指 定 了 绥 冲 区 长 度 ， 如 果 格 





























































































































SUG PER NEHER SHE, copio eiU ERR 1 再 加 上 一 













































































MA Ur. 也 就 是 说 snprintf 保 证 字符 串 以 '\0' 结 尾 。 snprintf 的 返回 值 是 格 式 化 后 的 
FRKE (不 包括 结尾 的 \o' ) ， 如 果 字 符 串 被 截断 ， 返 回 的 是 截断 之 前 的 长 度 ， 把 它 和 实 










































































*, auc ud 下 面 我 们 用 vsnprintf 包 装 出 一 个 类 似 printf 的 带 格 式 化 字符 是 














妥 冲 区 中 的 字符 串 长 度 相 比较 就 可 以 知道 是 否 发 生 了 截断 。 
I 出 的 后 四 个 通 数 在 前 四 个 函数 名 的 前 面 多 了 个 v-， 表 示 可 变 参数 不 是 以 .. .的 形式 传 进 
























































nmn 





























和 可 变 参 数 的 函数 。 


例 25.8. 实现 格式 化 打印 错误 的 err_sys 函 数 
i #include <stdio.h> 
: #include <stdlib.h> 
i #include <errno.h> 
: #include <stdarg.h> 
i #include <string.h> 


























AS err_sys RX, 
楚 ， 有 源 代码 行 号 ， 有 打开 文件 


: #define MAXLINE 80 


vo er VS (CONS ten me 
Ft 
E int err - errno; 
char buf [MAXLINE+1]; 
va_list ap; 
va_start(ap, fmt); 
vsnprintf (buf, MAXLINE, 
snprintf (buft+strlen (buf), 





Up See. non (Sei) n 
streat (buf, "\n"); 
fputs(buf, stderr); 


va_end (ap); 
exit (1); 


"qubemadn(rnE arge; 


id 


char *argv[]) 


printf ("Open £s OK\n", 
fclose(fp); 
return 0; 


FILE *fp; 

if (arge != 2) { 
: fputs ("Usage: 
: stderr); 
| exit (1); 
| } 
: TIE OPENA RON PIN PN EI 
: if (fp == NULL) 
err_sys ("Line 
PIII, pv LL] )) p 
m 


fmt, ap); 


MAXLINE-strlen(buf), 


./a.out pathname Nn", 


$d — Open file $s", 


argv[1]); 

















AMM fal, T main PALA , 而 且 可 以 把 fopen 的 错误 提示 打印 条 导 非 常 清 












































的 路 径 名 ， 一 看 就 知道 哪里 出 错 了 。 


























现在 总 结 








下 printf 格 式 化 字符 串 








的 转换 说 明 的 有 哪些 写法 。 




















Ls | 





















































ri 
式 ， 其 它 格式 请 参考 Man Page。 每 个 转换 说 明 以 s 号 开头 ， ers 我 们 以 前 

















列举 几 种 常用 的 格 


这 里 只 
































1 用 过 的 





























郊 明 仪 包 含 $ 号 和 














表 25.1. printf 转 换 说 明 的 可 选项 





间 制 前 面 加 0 (转换 字符 为 ， 十 六 进 制 前 面 
加 0x (转换 字符 为 x) ROX (转换 字符 为 x) 。 


容 居 左 ， 右 边 可 以 留 空格 
和 定格 式 化 后 的 最 小 长 度 ， 如 有 果 格 
可 以 在 左边 留 空格 ， 
| 面 指定 了 -号 就 在 右边 留 空格 。 宽 度 有 一 种 特别 的 
形式 ， 不 指定 整数 值 而 是 写成 一 个 * 号 ， 表 示 取 

个 int 型 参数 作为 宽度 。 
用 于 分 隔 上 一 和 


条 提 到 的 最 小 长 度 和 下 
























































用 一 个 整数 指 
后 的 内 容 没 有 这 人 么 长 ， 




































































































































































条 要 讲 的 精 

















转换 字符 ， 例 如 sa、ss， 其 实在 这 两 个 

















A 








间 还 可 以 插入 一 些 可 先 先 项 。 





FIT 


式 化 
JUR Bj 





举例 


printf("24x", Oxff)1] 
Eloxtf, printf ("gx", 
MB 


0xff) 打印 ff。 


见 下 面 的 例子 
jOseabiqhe se (CO OS 

llo") 打印 - 

llo. a i (4 -5-"s- 
10, "hello") 打印 - 


LIke) =ọ 






























































FERN EE, LE BORD 
化 后 保留 的 最 大 长 度 ， 对 H ll, printf("- 
~ |&6.4d-", 100) 打印 - 

0100-, printf("-$*.*f- 
", 8, 4, 3.14) 1THI- 
314000 
整 型 参数 可 以 指定 字 长 ，hh、h、1、11 分 别 表 

à Sr pa |printf("shhd"，255) 打 
、 short、 long、 long long Hh) 5 SET = E 


于 后 面 的 转换 字符 。 









































































































































































































































d a 











用 的 转换 字符 有 : 


表 25.2. printf 的 转换 字符 























nt 型 参数 格式 化 成 有 符号 十 进 制 表示 ， 如 
各 式 化 后 的 位 数 小 于 指定 的 精度 ， 就 在 左边 

















printf("$.4d", 100) 打 
印 oioo。 










































































取 unsigned int 型 参数 格式 化 成 无 符号 八 进 第 
(0) > 十 进 制 (u) > 十 六 进 制 (x 或 X) 表 printf("$4X", Oxdeadbeef) FJ 

示 ，x 表 示 十 六 进 制 数字 用 小 写 abcdef ，X 表 |EloxpeapBEEF, printf("Shhu", 

示 十 六 进 制 数字 用 大 写 ABCDEF， 如 果 格 式 |-1) 打印 255。 

化 后 的 位 数 小 于 指定 的 精度 ， 就 在 左边 补 0。 

int WE 数 转 换 成 unsigned char4e, 

成 对 应 的 ASCII 码 字符 。 

取 const char * 型 参数 所 指向 的 字符 串 

输出 ， 遇 到 ,\o' 结 束 ， 或 者 达到 指 

BE (精度 ) 结束 。 


参数 格式 n Ati TK. SIE p RM SU main) 打 
参数 格式 化 成 十 六 进 制 表示 。 相 当 Ela io ERE 25 


址 0x80483c4。 





























































































































printf("$c", 256+'A') 打印 A。 









































printf("$.4s", "hello") 4] 































































































printf ("sf", 3.14) 打 
印 3.140000 print£("S£", 
0.00000314) 打 印 0.000003。 















































VUE SU AL MG [-] ddd . aaa XE AAS 
， 小 数 点 后 的 默认 精度 是 6 位 。 



































参数 格式 化 成 [-1a.aage+aa (转换 
和 是 e) 或 [-1a.dqaE+qd (转换 字符 是 E) ”|printf ("se"，3.14) 打 
X 样 的 格式 ， 小 数 点 后 的 默认 精度 是 6 位 ， 指 | 印 3.140000e+oo。 
是 两 位 。 
取 aouble 型 参数 格式 化 ， 精 度 是 指 有 效 数 字 而 
非 小 数 点 后 的 数字 ， 上 默认 精度 是 6。 如 果 指 数 |printf ("sg"，3.00) 打 
g | 小 于 -4 或 大 于 等 于 精度 就 按 se (转换 字符 EN3, printf (ngg", 
G | 是 g) Hise (转换 字符 是 G) 格式 化 ,否则 ”|o.00001234567) 打印 1.23457e- 




































































































































































SE 















































Wir 





Beach. MARDA eO 








, WRI 05. 























有 人 小 数 部 分 ， 小 数 点 也 去 掉 。 


格式 化 成 一 个 "打印 一 个 4。 





我 们 在 第 6 节 “ 可 变 参 数 " 讲 过 可 变 参 数 的 原理 ，printf 并 不 知道 实际 参数 的 类 型 ， 只 能 按 转换 
说 明 指 出 的 参数 类 型 从 栈 帧 上 取 参 数 ， 所 以 如 果实 际 参数 和 转换 说 明 的 类 型 不 符 ， 结 果 可 能 会 
有 些 意外 ， 上 面 也 举 3 过 儿 个 这 样 的 例子 。 另外 ， 如 果 stz 指 向 一 个 字符 串 ， 用 printf (s) 打印 这 
个 字符 串 可 能 得 到 错误 的 结果 ， 因 为 字符 串 中 可 能 包含 $8 号 而 被 printf 当 成 转换 说 明 ， A 
不 知道 后 面 没 有 传 其 它 参数 ， 照样 会 从 栈 帧 上 取 参 数 。 所 以 比较 保险 的 办 法 是 printf("ss"， 


S) o 


FIBfiscanz PAZ EC RIUE 


; #include <stdio.h> 
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(ant scanf (const chan format, ...)¢ 
: int fscant (ETLE Ereeom Const Char Formate ooo) P 
P ALINE, SSICGEMUE (COMEIE Char veti, COME Char “OTM, soc) p 


i #include <stdarg.h> 


ETE vscanf (const char *format, va list ap); 
mE vsscanf(const char *str, const char *format, va_list ap); 
hint viEsecant (MILE *stream, Const char *format, vas 


: 返回 值 ; 3E EA UC RO TIC C AE HET or T HR DERI eee 















































; 返回 0 表示 一 个 都 不 匹配 ， 出 错 或 者 读 到 文件 或 字符 串 来 尾 时 返回 PoF IF errno 









































scanf 从 标准 输入 读 字符 ， 按 格式 化 字符 串 format 中 的 转换 说 明 解 释 这 些 字 符 ， 转 换 后 赋 给 后 面 
的 参数 ， 后 面 的 参数 都 是 传 出 参数 ， 因 此 必须 传 地 址 而 不 能 传 值 。fscanf 从 指定 的 文件 stream 中 
读 字 符 ， 而 sscanf 从 指定 的 字符 串 str 中 读 字 符 。 后 面 三 个 以 vy 开头 的 函数 的 可 变 参 数 不 是 
闪 . . .的 形式 传 进 来 ， 而 是 以 va_list 类 型 传 进来 。 
现在 总 结 一 下 scanf 的 格式 化 字符 串 和 转换 说 明 ， 这 里 也 只 列举 几 种 常用 的 格式 ， 其 它 格式 请 参 
考 Man Page。scan 用 输入 的 字符 去 匹配 格式 化 字符 串 中 的 字符 和 转换 说 明 ， 如 果 成 功 匹配 一 
个 转换 说 明 ， 就 给 一 个 参数 赋值 ， 如 果 读 到 文件 或 字符 串 末 尾 就 停止 ， 或 者 如 果 遇 到 和 格式 化 
字符 串 不 匹配 的 地 方 (比如 转换 说 明 是 sa 却 读 到 字符 aA) 就 停止 。 如 果 遇 到 不 匹配 的 地 方 而 停 
止 ，scanf 的 返回 值 可 能 小 于 赋值 参数 的 个 数 ， 文 件 的 读 写 位 置 指向 输入 中 不 匹配 的 地 方 ， 下 次 
调用 库 函 数 读 文件 时 可 以 从 这 个 位 置 继续 。 
格式 化 字符 串 中 包括 : 

。 空格 或 Tab ， 在 处 理 过 程 中 被 忽略 。 


普通 字符 (不 包括 s) ， 和 输入 字符 中 的 非 空 白字 符 相 匹配 。 输 入 字符 中 的 空白 字符 是 # 
ZXRR. Tab. Nes \n NS \fo 


。 转 换 说 明 ， 以 * 开 头 ， 以 转换 字符 结尾 ， 中 间 也 有 若干 个 可 选项 
转换 说 明 中 的 可 选项 有 : 
。* 号 ， 表 示 这 个 转换 说 明 只 是 用 来 匹配 一 段 输 入 字符 ， 但 匹配 结果 并 不 赋 给 后 面 的 参数 。 


”用 一 个 整数 指定 的 宽度 N， 表示 这 个 转换 说 明 最 多 匹配 N 个 输入 字符 ， 或 者 匹配 到 输入 字 
符 中 的 下 一 个 空 日 字符 结束 。 
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。 对 于 整 型 参数 可 以 指定 字 长 ， 有 hh、h、1、11 (也 可 以 写成 一 个 4) ， 含 义 和 printf 相 
同 。 但 1 和 1 还 有 一 层 含义 ， 当 转换 字符 是 。。f、g 时 ， 表 示 赋 值 参数 的 类 型 是 :10at * 而 
非 aouble *， 这 一 点 跟 pbrintf 不 同 ， 这 时 前 面 加 上 1 或 2 表示 aouble * 或 long double * 型 。 


常用 的 转换 字符 有 : 











































































































表 25.3. scanf 的 转换 字符 























匹配 整数 〈 开 头 可 以 有 负 号 ) ， 赋 值 参数 的 类 型 是 int * ， 如 果 输 入 字符 
症 整 数 ， 如 果 输 入 字符 以 0 开头 则 匹配 八进制 整 
































匹配 无 符号 八进制 、 十 3 HZC 赋值 参 数 的 类 型 是 unsigneq int 


























科 ， 字 符 的 个 数 由 宽度 指定 ， 缺 省 宽度 是 1 ， 赋 值 参 数 的 类 型 
， 林 尾 不 会 添加 '\o'。 如 果 输 入 字符 的 开头 有 空白 字符 ， 这 些 空 白字 
符 并 不 被 忽略 ， 而 是 保存 到 参数 中 ， 要 想 跳 过 开头 的 空白 字符 ， 可 以 在 格式 化 
1 用 一 个 空格 去 匹配 。 

| LB 非 空 白字 符 ， 从 输入 字符 中 的 第 一 个 非 空白 字符 开始 匹配 到 下 一 个 空 
习 字 符 之 前 ， 或 者 匹配 到 指定 的 宽度 ， 赋 值 参 数 的 类 型 是 char *， 末 尾 自 动 添 
加 '\o'。 
匹配 符 点 数 (开头 可 以 有 负 号 ) ， 赋 值 参数 的 类 型 是 float *， 也 可 以 指 


定 double * 或 long double * 的 字 长 。 


转换 说 明 s% 匹 配 一 个 字符 s， 不 做 赋值 。 
































































































































































































































下 面 几 个 例子 出 目 [K&R]1。 第 一 个 例子 ， 读 取 用 户 输入 的 浮 点 数 素 加 起 来 。 















































例 25.9. 用 scanf 实 现 简 单 的 计算 器 


: #include <stdio.h> 


: int main(void) /* rudimentary calculator */ 





是 | 

: double sum, v; 

sum) = 0p 

: while (scanf ("%1f", &v) == 1) 

i peiner (Ue Aaa wo Sib EN) 
| return 0; 

BJ 























如 果 我 们 要 读 取 25 pec 1988 这 样 的 日 期 格式 ， 可 以 这 样 写 : 























i char *str = "25 Dec 1988"; 
p E day, year; 
: char monthname [20]; 


‘ sscanf (str, "Sd Ss $d", &day, monthname, &year); 



































如 果 str 中 的 空白 字符 再 多 一 些 ， 比 如 25 pec 1998" ， 仍 然 可 以 正确 读 取 。 如 果 格 式 化 字符 串 
中 的 空 空格 和 Tab 再 多 一 些 ， 比如 "sa ss $d " 也 可 以 正确 读 取 。 scanf 图 数 是 很 强大 的 ， 但 是 要 
用 对 了 不 容易 ， 需 要 多 练习 ， 通 过 练习 体会 空白 字符 的 作用 。 


如 果 要 读 取 12/25/1998 这 样 的 日 期 格式 ， 就 需要 在 格式 化 字符 串 中 用 /匹配 输入 字符 中 的 /: 































































































































































































‘int day, month, year; 


: scanf ("%d/%d/%d", smonth, &day, year); 


























scanf 把 换行 符 也 看 作 空 白字 符 ， 仅 仅 当 作 字 段 之 间 的 分 隔 符 ， 如 果 输 入 中 的 字段 个 数 不 确定 ， 
最 好 古 移 用 fgets 投 1 TERR, 然后 再 交 给 sscanf 处 理 。 如 果 我 们 的 程序 需要 同时 识别 以 上 两 种 所 
期 格式 ， 可 以 这 样 写 : 





















































: while (fgets(line, sizeof(line), stdin) > 0) { 

: if (sscanf(line, "Sd Ss Sd", &day, monthname, &year) == 3) 
printf("valid: %s\n", line); /* 25 Dec 1988 form */ 

else if (sscanf(line, "$d/$d/$d", &month, &day, &year) == 

| 3) 


printf("valid: %s\n", line); /* mm/dd/yy form */ 
: else 

| printf("invalid: %s\n", line); /* invalid form */ 
:] 





2.10. Cii EERUOSETT X 


FH EU BE Dal HACEN FE ER Beg SCR AERE, oce PE PR 38 68 FH TUER ES SR Fin 
内 核 〈 以 后 我 们 会 看 到 与 MO 相关 的 系统 调用 ) ， 最 终 由 内 核 驱动 磁盘 或 设备 完成 WO 操作 。C 标 
准 库 为 每 个 打开 的 文件 分 配 一 个 |/O 缓 冲 区 以 加 速 读 写 操作 ， ea a 
个 缓冲 区 ， 用 户 调用 读 写 函 数 大 多 数 时 候 都 在 Il/O 绥 冲 区 中 读 写 ， 少数 时 候 需 要 把 读 写 请 求 
传 给 内 核 。 以 fgetc/fputc 为 例 ， 当 用 户 程序 第 一 cel sade to FPH, fgetc PIAA) REM 
过 系统 调用 进入 内 核 读 1K 字 节 到 JVO 绥 冲 区 中 ， 然 后 返回 MO 缓冲 区 的 第 一 个 字 节 给 用 户 ， 把 
读 写 位 置 指向 /O 绥 冲 区 中 的 第 二 个 字符 ， 以 后 用 户 再 调 fgetc ， 就 直接 从 MO 缓冲 区 中 读 取 ，fT 
不 需要 进 内 核 了 ， 当 用 户 把 这 1K 字 节 都 读 完 之 后 ， 再 次 调用 fgetc 有 时，fgetc 涵 数 会 再 次 进入 内 
核 读 1K 字 市 到 |/O 绥 冲 区 中 。 在 这 个 场景 中 用 户 程 序 、C 标 准 库 和 内 核 之 间 的 关系 就 像 在 第 5 市 
“Memory Hierarchy” 中 CPU、 和 C 标 准 库 之 所 以 会 从 内 核 预 读 一 些 
数据 放 在 MO 缓冲 区 中 ， 是 希望 用 户 程序 随后 要 用 到 这 些 数 据 ，C 标 准 库 的 MO 缓冲 区 也 在 用 户 空 
间 ， 直 接 从 用 户 空 间 读 取 数 据 比 进 内 核 读 数据 要 快 得 多 。 男 一 方面 ， 用 户 程 序 调用 fputc 通 常 只 
是 写 到 |/O 绥 冲 区 中 ， 这 样 fputc 涵 数 可 以 很 快 地 返回 ， 如 果 I/O 绥 冲 区 写 满 了 ，fputc 就 通过 系统 
调用 把 VO 绥 冲 区 中 的 数据 传 给 内 核 ， 内 核 最 终 把 数据 写 回 磁盘 。 有 时 候 用 户 程序 希望 把 MO 组 ; 
区 中 的 数据 立刻 传 给 内 核 ， 让 内 核 写 回 设备 ， 这 称 为 Flush 操 作 ， 对 应 的 库 函 数 

是 fflush，fclose 国 数 在 关闭 文件 之 前 也 会 做 Flush 操 作 。 


| (EH eget s/fput s PR? 数 时 在 用 户 程序 中 也 需要 分 配 
缓冲 区 〈 图 中 的 puf1 和 buf2) ,注意 区 分 用 户 程 序 的 缓冲 区 和 C 标 准 库 的 |/O 绥 冲 区 。 








































































































































































































































































































































































































































































































































































































































































































































































































图 25.1. CREE INOR 





fputs(buf1, fp); | | | 


buf1 






| I/O buffer 


fgets(buf2,n,fp) 


































































































































































































































buf2 | 
用 户 程序 | c 标 yo 库 | mk | wa 
C 标 准 库 的 VO 缓冲 区 有 三 种 类 型 : 全 缓冲 、 行 缓冲 和 无 缓冲 。 当 用 户 程序 调用 库 函数 做 写 操作 
时 ,不 同类 型 的 缓冲 区 具有 不 同 的 特性 。 
全 缓冲 
如 果 绥 冲 区 写 满 了 就 写 回 内 核 。 常 规 文 件 通常 是 全 绥 冲 的 。 
行 缓冲 
如 果 用 户 程序 写 的 数据 中 有 换行 符 就 把 这 一 行 写 回 内 核 ， 或 者 如 果 绥 冲 区 写 满 了 就 写 回 内 
核 。 标 准 输入 和 标准 输出 对 应 终端 设备 时 通常 是 行 缓冲 的 。 
无 缓冲 






















































































的 ， 这 样 用 户 程序 产生 的 错误 信 
下 面 通过 一 个 简单 的 例子 证 


县 可 以 尽快 输出 到 设备 。 
明 标准 输出 对 应 终 测 设备 时 是 行 绥 















































: #include <stdio.h> 


p int main() 


用 户 程序 每 次 调 库 函数 做 写 操作 都 要 通过 系统 调用 写 回 内 核 。 标 准 错误 输出 通 

















fea 
ct 
RE 
















































































Pd 

| orinter (“SLE vorle) r 

: while(1); 

: return 0; 

2 
运行 这 个 程序 ， 会 发 现 helle worla 并 没有 打印 到 屏幕 上 。 用 Ctrl-C 终 止 它 ， 去 掉 程 序 中 
的 whnile (1) ;语句 再 试 一 次 : 

ee EE 

negro worlds 
hello world 被 打印 到 屏幕 上 ， 后 面 直 接 跟 Shell 提 示 符 ， 中 间 没 有 换行 。 
Na 数 被 司 动 代 码 这 样 调用 : exit (main (argc, argv));o main PK] oe 














aii lexit, exit 函数 首先 关闭 所 有 尚未 关闭 的 frrEg * 指 针 (关闭 之 前 : 





























exit 系 统 调用 进入 内 核 退 出 当前 进程 [33]。 


ao !， 由 于 标准 输出 是 行 缓冲 的 ，printf ("hello world") 
所 以 只 把 字符 串 写 到 标准 输出 的 MO 组 ; 
ie C， 进 程 是 异常 终止 的 ， 并 没有 调用 exit , 
















































































做 Flush 操 作 ) , 


;打印 的 字符 串 中 没有 换行 
! 区 中 而 没有 写 回 内 核 〈 写 到 终端 设备 ) ， 
也 就 没有 机 会 Flush VOZ 








如 果 
AIFI di 

















X, 




















终 疫 有 打印 到 屏 莫 上。 如果 把 打印 语句 改 成 printf("hello world\n");, At 
到 终端 设备 ， 或 者 如 果 把 while(1) ;去掉 也 可 以 写 到 终端 设备 ， 因 为 程序 退出 时 会 调 
用 exit Flush 所 有 1/O 绥 冲 区 。 在 本 书 的 其 它 例子 中 ，printf 打 印 的 字符 串 末 尾 都 有 换行 符 ， 以 保 


ME > Aye a 


证 字符 串 在 printf 调 用 结束 时 就 写 到 终端 设备 。 


我 们 再 做 个 实验 ， 在 程序 中 直接 调用 _exit 退 出 。 




























































































































































































: #include <stdio.h> 
: #include <unistd.h> 


: int main() 


d 


printf("hello world"); 
.exit (0); 






































结果 也 不 会 把 字符 串 打 印 到 屏 莫 上， 如果 把 _exit 调 用 改 成 exit 束 可 以 打印 到 屏幕 上 。 















































除了 写 满 缓冲 区 、 写 入 换行 符 之 外 ， 行 缓冲 还 有 一 种 情况 会 自动 做 Flush 操 作 。 如 果 : 
昌 户 程序 调用 库 函 数 从 无 绥 冲 的 文件 中 读 取 































































































。 或 者 从 行 缓冲 的 文件 中 读 取 ， 并 且 这 次 读 操作 会 引发 系统 调 








从 内 核 读 取 数 据 


























那么 在 读 取 之 前 会 自动 Flush 所 有 行 缓冲 。 例 如 : 











: #include <stdio.h> 
i #include <unistd.h> 


i int main () 


i { 

char buf[20]; 

: primen (MEMES aly ci lines Hp 
: fgets(buf, 20, stdin); 

| return 0; 

D) 












































虽然 调用 printt 并 不 会 把 字符 串 写 到 设备 ， 但 紧 接 着 调用 fgets 读 一 个 行 缓冲 的 文件 〈 标 准 输 
A) ， 在 读 取 之 前 会 自动 Flush 所 有 行 缓冲 ， 包 括 标 准 输出 。 
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如 果 用 户 程序 不 想 完全 依赖 于 自动 的 Flush 操 作 ， 可 以 调 fflush 函 数 手 动 做 Flush 操 作 。 








; #include <stdio.h> 


| int fflush(FILE *stream) ; 



































: 返回 值 : 成 功 返 回 0， 出 错 返 回 EOF 并 设置 errno 





对 前 面 的 例子 再 稍 加 改动 : 








: #include <stdio.h> 


Ortum Seti) 


| 

: printf ("hello world"); 
| fflush (stdout) ; 

: while(1); 

P] 




















At A 


日 ftliush 强 制 写 回 内 核 ， 因 此 也 能 在 屏幕 上 打印 出 字符 
申 。ff1lush 消 数 用 于 确保 数据 写 回 了 内 核 ， 以 免 进程 异常 终止 时 丢失 数据 。 作 为 一 个 特例 ， 调 























虽然 字符 串 中 没有 换行 ， 但 
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JAREM 




































































ra 


用 fflush (NULL) 可 以 对 所 有 打开 文件 的 I/O 绥 冲 区 做 Flush 操 作 。 


[22] 这 些 特 性 取决 于 终端 的 工作 模式 ， 终 端 可 以 配置 成 一 次 一 行 的 模式 ， 也 可 以 配置 成 一 次 一 个 
字符 的 模式 ， 上 默认 是 一 次 一 行 的 模式 (本 书 的 实验 都 是 在 这 种 模式 下 做 的 ) ， 关 于 终端 的 配置 





可 参考 [APUE2e]。 
[33] 其 实在 调 _exit 进 内 核 之 前 还 要 调用 户 程序 中 通过 atexit (3) 注册 的 退出 处 型 








详细 介绍 ， 读 者 可 参考 [APUE2e]。 


UK, ANS AMI 


3. 数值 字符 串 转 换 函 数 
第 25 章 C 标 准 库 







i #include <stdlib.h> 


: int atoi(const char *nptr); 
: double atof (const char *nptr); 


; 返回 值 : 转换 结果 


















































atoi 把 一 个 字符 串 开 头 可 以 识别 成 十 进 制 整数 的 部 分 转换 成 int 型 ， 相 当 于 下 面 要 讲 
的 strtol (nptr, (char **) NULL, 10) 。 例 如 atoi ("123apbc") 的 返 回 值 是 123， 字符 串 开头 可 
以 有 若干 空格 ， 例 如 atoi (" -90.6-" /的 返回 值 是 -90。 如 宋 和 字符 串 开 头 疫 有 可 识别 的 整数 ， 例 
如 atoi ("asdf"), 则 返回 0， 而 atoi( VO eee) 也 返回 0， 根据 返回 值 并 不 外 EE 区 分 这 两 种 情况 ， 所 以 
使 用 atoi 函数 不 能 检查 出 错 的 情况 。 下面 要 讲 的 strtol 函 数 可 以 设置 errno ， 因 此 可 以 检查 出 错 


的 情况 ， 在 严格 的 场合 下 应 该 用 strtol， 而 atoi 用 起 来 更 简便 ， 所 以 也 很 常用 。 


atof 把 一 个 字符 串 开 头 可 以 识别 成 浮 点 数 的 部 分 转换 成 aoup1e 型 ， 相 当 于 下 面 要 讲 

的 strtod (nptr, (char **) NULL); 字符 串 开头 可 以 识别 的 浮 点 数 格式 和 C 语 言 的 浮 点 数 常量 
相同 , 例如 atof ("31.4 ") 的 返回 值 是 31 4, atof ("3.14e+1AB") 的 返 回 值 也 是 31 4. atof 也 不 能 
侈 查 出 错 的 情况 ， 而 strtod 可 以 。 

















































































































































































































































































































i #include <stdlib.h> 


i long int strtol(const char *nptr, char **endptr, int base); 
' double strtod(const char *nptr, char **endptr); 


























: 返回 值 : 转换 结果 ， 出 错时 设置 errno 


























strtol 是 atoi 的 增 强 版 ， 主要 体现 在 这 几 方 面 : 
。 不 仅 可 以 识别 十 进 制 整 数 ， 还 可 以 识别 其 它 进 制 的 整数 ， 取 决 于 base 参 数 ， 比 


如 strtol ("OXDEADbeE~~", NULL, 16) 返回 0xdeadbee 的 值 ，strtol("0777~~"，NULL， 


8) 返回 0777 的 值 。 
e endptr 是 一 个 传 出 参数 ， 函 数 返 回 时 指向 后 面 未 被 识别 的 第 一 个 字符 。 例 如 char *pos; 


strtol("123abc", &pos, 10);, strtol 返 反 回 123 ， pos 指 向 字符 上 串 1 的 字母 a。 RAB 
开头 没有 可 识别 的 整 EC 例如 char *pos; strtol("ABCabc", &pos, 10); , 则 strtol 返 


回 0，pos 指 疝 和 字符 串 开头 ， 可 以 据 此 判断 这 种 出 错 的 情况 ， 而 这 是 atoi 处 理 不 了 的 。 


。 如 果 字 符 串 中 的 整数 值 超出 1ong int 的 表示 范围 (Ei P Yat) ， 则 strtoel 返 回 它 所 能 表 
示 的 最 大 (或 最 小 ) 整数 ， 并 设置 errno 为 ERANGE ， 例如 strtol ("OXDEADbeef~~", NULL, 
6) 返回 0x7fffffff 并 设置 errno 为 ERANGE。 
















































































































































































回想 一 下 使 用 fopen 的 套路 if ( = fopen(...)) == NULL) { 读 取 errno hy fopen 在 出 错时 
会 返回 NULL 因此 我 们 知道 需要 C NIS 但 strtol 在 成 功 调用 时 也 可 能 返回 0x7fffffff， 我 们 如 
何 知 道 需要 读 errno 呢 ? 最 * 谨 的 做 法 是 首先 把 errno 置 0， 再 调用 stztol， 再 查看 srrno 是 否 变 
成 了 错误 码 。Man Page 上 有 一 个 很 好 的 例子 : 














































































































td 





ffi] 25.10. strtol 的 出 错 处 理 





i #include <stdlib.h> 
: dSinclude «limits.h» 
! #include <stdio.h> 
(tinelude <ereno > 


| int main(int argc, char *argv[]) 
i { 
: int base; 
enhar endpti SIE 
long val; 


ale (aoe «$ 2) | 
i fprintf(stderr, "Usage: %s str 
: [base] in", argv[0]); 
exit(EXIT FAILURE); 

} 


str = argv[1]; 
base = (argc > 2) ? atoi(argv[2]) : 10; 
errno = 0; /* To distinguish success/failure 


i after call */ 
: val = strtol(str, &endptr, base); 


/* Check for various possible errors */ 


if ((errno == ERANGE && (val == LONG MAX || val 
: == LONG MIN)) 
|| (erzo l= 0 8 val 0 í 
perror(Ust reolt 
exit (EXIT_FAILURE); 
} 


if (endptr == str) { 
fprintf(stderr, "No digits were 





: found\n") ; 
exit(EXIT FAILURE); 
} 


/* If we got here, strtol() successfully parsed 
>a number */ 


printf ("strtol() returned %ld\n", val); 
i we Qe IN Glo ite r e UNQU /* Not necessarily 
| El EOE oo SY 


: printf("Further characters after 
: number: $sNn", endptr); 


exit(EXIT SUCCESS); 








Ir 








strtod 是 atof 的 增强 版 ， 增强 的 功能 和 strtol 类 似 。 
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4. 分 配 内 存 的 函数 


除了 malloc 之 外 ，C 标 准 库 还 提供 了 男 外 两 个 在 堆 空 间 分 配 内 存 的 函数 ， 它 们 分 配 的 内 存 同样 
由 free 释 放 。 























i #include <stdlib.h> 


: void *calloc(size_t nmemb, size t size); 
M n ae ol o cipi Se Sse: 














返回 值 : FOCUSES x 间 的 首 地 址 ， 出 错 返 回 NULL 
































calloc 的 参数 很 像 fread/fwrite 有 的 参数 ， 分 配 nmemp 个 元 素 的 内 存 空间 ， 每 个 元 素 占 size 字 节 " 
并 且 calloc 负 责 把 这 块 内 存 空 间 He NOME, Teac HR SHY I A x [REA e 


有 时 候 用 malloc 或 calloc 分 配 的 内 存 空间 使 用 了 一 段 时 间 之 后 需要 改变 它 的 大 小 ， 一 种 办 法 是 调 
用 malloc 分 配 一 块 新 的 内 存 空 间 ， Lu E. x 上 间 ， 然 后 调用 free 释 

放 原 内 存 空 间 。 使 用 realloc 函 数 简 化 了 这 些 步骤 ， 把 原 内 存 空 间 的 指针 ptr 传 给 realloc， 通过 
参数 size 指 定 新 的 大 小 ( 字 节 数 ) ，zealloc 返 回 新 内 存 空间 的 首 地 址 ， 并 释放 原 内 存 空间 。 新 
内 存 空 间 中 的 数据 尽量 和 原来 保持 一 致 ， 如 果 size 比 原来 小 ， 则 前 size 个 字 节 不 变 ， 后 面 的 数 

据 被 截断 ， 如 果 size 比 原来 大 ， 则 原来 的 数据 全 部 保留 ， 后 面 长 出 来 的 一 块 内 存 空间 未 初始 化 

(realloc 不 负责 清 零 ) 。 注 意 ， 参 数 ptr 要 么 是 wurL ， 要 么 必须 是 先前 调 
用 malloc、calloc 或 realloc 返 回 的 指 EF, 不 能 把 任意 指针 传 给 realloc 要 求 重 新 分 配 内 存 空间 。 
咎 为 两 个 特例 ， 如 果 调 用 realloc (NULL, size), 则 相当 于 调用 malloc ( (size) ， 如 果 调 

用 realloc (ptr, 0), ptz 不 是 NULL , 则 相当 于 调用 free (ptr) o 












































































































































































































































































































































: #include <alloca.h> 


i void *alloca(size t size); 



































返回 值 : 返回 所 分 配 内 存 空 间 的 首 地 址 ， 如 果 size 太 大 导致 栈 空间 耗 尽 ， 结 果 是 未 定义 的 



























































参数 size 是 请 求 分 配 的 字 节 数 ，al1loca 阴 数 不 是 在 堆 上 分 配 空间 ， 而 是 在 调用 者 函数 的 栈 帧 上 
4 


DZE, KUFER, 74 a) HE ew Bok 回 时 自动 释放 栈 帧 所 以 不 需要 free 。 这 个 
范 数 不 属于 C 标 准 库 ， 而 是 在 POSIX 标 准 中 和 定义 的 。 
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5. KERA 


1、 编 程 读 写 一 个 文件 test .txt ， 每 隔 1 秒 向 文件 中 写 入 一 行 记录 ， 类 似 于 这 样 : 





























i, 2007-7-30 15316842 
i2, 2007-17-30 15:16:43 






































该 程序 应 该 无 限 循环 ， 直 到 按 Ctrl-C 终 止 。 下 次 再 启动 程序 时 在 test ,txt 文件 末尾 追加 记录 ， 并 
且 序 号 能 够 接续 上 次 的 序号 ， 比 如 : 


























1, 2007-7-30 15: 
i2, 2007-7-30 15: 
: 3, 2007-7-30 15:19:02 
i 4, 5 

57 5 


200 7-—7-2(0 i158 
2(007-—7-—30 1589 


























这 类 似 于 很 多 系统 服务 维护 的 日 志文 件 ， 例 如 在 我 的 机 右上 系统 服务 进程 acpia 维 护 一 个 日 志文 
件 /var/1o0g/acpid， 就 像 这 样 : 








:$ cat /var/log/acpid 

wileun Cer 26 08744546 2003) Tog£ulcorcopened 
F [Sun Oct 26 IOgiligas 200S] ex Ee 

: [Sun Oct 26 18:54:39 2008] “starting up 




















EK RS acpi ENRABIAT STIS htt, ASHP RAEN GERI RK, Ets 
EHE ACA AINA A a ARI a e 


获取 当前 的 系统 时 间 需 要 调用 time (2) 函数 ， 返 回 的 结果 是 一 个 time_t 类 型 ， 其 实 就 是 一 个 大 整 
数 ， 其 值 表示 从 UTC (Coordinated Universal Time) 时 间 1970 年 1 月 1 日 00:00:00 ( 称 

为 UNIX 系 统 的 Epoch 时 间 ) 到 当前 时 刻 的 秒 数 。 然后 调用 1ocaltime (3) 将 time t 所 表示 

的 UTC 时 间 转 换 为 本 地 时 间 (我 们 是 +8 区 ， 比 UTC 多 8 个 小 时 ) 并 转 成 struct tm 类 型 ， 该 类 型 
的 各 数据 成 员 分 别 表示 年 月 日 时 分 秒 ， 具 体 用 法 请 查阅 Man Page。 调 用 sleep(3) 函数 可 以 指定 
程序 睡眠 多 少 秒 。 


2、INI 文 件 是 一 种 很 常见 的 配置 文件 ， 很 多 Windows 程 序 都 采用 这 种 格式 的 配置 文件 ， 
在 Linux 系 统 中 Qt 程序 通常 也 采用 这 种 格式 的 配置 文件 。 比 如 : 





ii 





{lin 





































































































































































































































































































: ;Configuration of http 
i [http] 

: domain-www.mysite.com 
i port-8080 

: cgihome=/cgi-bin 


: Configuration of db 

: [database] 

: Server = mysql 

: user = myname 

|! password = toopendatabase 








一 个 配置 文件 由 若干 个 Section 组 成 ， 由 [] 括 号 括 起 来 的 是 Section 名 。 每 个 Section 下面 有 若干 






































个 key = value 形 式 的 键 值 对 (Key-value Pair) ， 等 号 两 边 可 以 有 零 个 或 多 个 空白 字符 CER 
或 Tab) ， 每 个 键 值 对 占 一 行 。 以 ;号 开头 的 行 是 注释 。 每 个 Section 结 束 时 有 一 个 或 多 个 空 行 ， 
空 行 是 仅 包 含 零 个 或 多 个 空白 字符 (空格 或 Tab) 的 行 。INI 文 件 的 最 后 一 行 后 面 可 能 有 换行 符 
也 可 能 没有 。 


现在 XML 兴 起 了 ，INI 文 件 显得 有 点 土 。 现 在 要 求 编程 把 INI 文 件 转 换 成 XML 文 件 。 上 面 的 例子 经 
转换 后 应 该 变 成 这 样 : 



























































































































































i «!-- Configuration of http 一 一 > 
| «http» 
: <domain>www.mysite.com</domain> 
<port>8080</port> 

i <cgihome>/cgi-bin</cgihome> 
SABER 


i «!-—- Configuration of db ==> 

i «database» 

| <server>mysql</server> 
<user>myname</user> 

1 <password>toopendatabase</password> 

i </database> 











3、 实 现 类 似 gcc 的 -m 选 项 的 功能 ， 给 定 一 个 .c 文 件 ， 列 出 它 直 接 和 间接 包含 的 所 有 头 文件 ， 例 
如 有 一 个 main.c 文 件 : 








I 








: #include <errno.h> 
iqinelude "stack.h™ 


UNE main() 


return 0; 


























你 的 程序 读 取 这 个 文件 ， 打 印 出 其 中 包含 的 所 有 头 文件 的 绝对 路 径 : 














/mam 

: /usr/include/errno.h 

i /home/akaedu/stack.h: cannot find 
//usE/inelude/ features nh 

: /usr/include/bits/errno.h 

: /usr/include/linux/errno.h 





如 果 有 的 头 文 件 找 不 到 ， 就 像 上 面 例 子 那样 打印 /homey/akaedu/stack.h: cannot find。 首 先 复 
习 一 下 第 2.2 节 “ 头 文件 ? 讲 过 的 头 文件 查找 顺序 ， 本 题目 不 必 考 虑 -TI 选项 指定 的 目录 ， 只 
在 .c 文 件 所 在 的 目录 以 及 系统 目录 /usr/inciude 中 查找 。 
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1. 链表 
1.1. 单 链 表 


23.6“ 链 表 ? 所 示 的 链表 即 单 链 表 (Single Linked List) ， 本 节 我 们 学 习 如 何 创 建 和 操作 这 种 
链表 。 每 个 链表 有 一 个 头 指 针 ， 通 过 头 指针 可 以 找到 第 一 个 节点 ， 每 个 节点 都 可 以 通过 指针 域 
找到 它 的 后 继 ， 最 后 一 个 节点 的 指针 域 为 wurr ， 表 示 没 有 后 继 。 数 组 在 内 存 中 的 连续 存放 的 ， 
而 链表 在 内 存 中 的 布局 是 不 规则 的 ， 我 们 知道 访问 某 个 数组 元 素 b rn] 时 可 以 通过 基地 址 +nx 每 个 元 
素 的 字 节 数 得 到 它 地 址 ， 或 者 说 数组 支持 随机 访问 ， 而 链表 是 不 支持 随机 访问 的 ， 只 能 通过 前 一 
个 元 素 的 指针 域 得 知 后 一 个 元 素 的 地 址 ， 因 此 只 能 从 头 指 针 开 始 顺序 访问 各 节点 。 以 下 代码 实 
现 了 单 链表 的 基本 操作 。 



















































































































































































4k 
5E 
bu 


例 26.1. 


i /* linkedlist.h */ 
: #ifndef LINKEDLIST H 
: #define LINKEDLIST H 














| typedef struct node *link; 
Sureuee mode 4 

: unsigned char item; 
link next; 


E 


: link make node (unsigned char item); 
i void free node(link p); 

: link search (unsigned char key); 

: void insert (link p); 

: link delete (link p); 

i void traverse(void (*visit) (link) ); 
: void destroy (void); 

: void push(link p); 

: link pop (void); 


| endif 





i/* linkedlist.c */ 
: #include <stdlib.h> 
i #include "linkedlist.h" 


starie link head — NULE- 


i link make node (unsigned char item) 
Pu 
: link p = malloc(sizeof *p); 
p->item item; 

p->next NULL; 

return p; 


m 


i void free node(link p) 
Ed 
: free(p); 
- 


| link search(unsigned char key) 


llatjaU os 
for (p = head; p; p = p->next) 
if (p->item == key) 
return p; 
i return NULL; 
p 


i void insert(link p) 
E 
i p->next = head; 
: head = p; 
:] 


: link delisted link p) 
Fal 





link prev; 

if (p == head) { 
head = p-»next; 
ISIE Oho JOE 


} 


for (prev = head; prev; prev = prev-»next) 
if (prev->next == p) { 
prev-»next = p->next; 


return p; 


} 


return NULL; 
:] 


‘void traverse(void (*visit) (link)) 
B4 
: link p; 
Loma ox MEd ME Mex) 
: visit (p); 
Pj 


| void destroy (void) 
i { 
i link q, p = head; 
head = NULL; 
while (p) { 


q =P; 
p = p-»next; 
free (q); 


m 


D void push(link p) 
A 
| insert (p); 


z 


| link pop(void) 
: { 
: if (head == NULL) 

return NULL; 
else 

return delete (head); 





/mn 
: #include <stdio.h> 
: #include "linkedlist.h" 








: void print item(link p) 
B4 
| Se (SHON, gea) 7 
A 


| int main (void) 
ipt 
| link p = make node(10); 


insert (p); 

p = make_node(5); 
insert (p); 

p = make_node (90); 
insert (p); 

p = search(5); 

delete (p); 

free node(p); 
traverse(print item); 
destroy(); 


p = make node(100); 

push (p) ; 

p = make node (200); 

push (p); 

p = make node (250); 

push (p) ; 

while (p = pop()) { 
print item(p); 
free node (p); 

} 


return 0; 














在 初始 化 时 把 头 指针 heaa 初 始 化 为 NurL , 表示 空 链表。 I main PK 数 调用 make_node 创 建 几 个 节 
点 ， 分 别 调用 insert 插 入 到 链表 中 。 



























































: void insert (link p) 


d 


p->next = head; 
head = p; 








图 26.1. 链表 的 插入 操作 
— APR, SESE SPER, 


head head 


p 


head 
p-»next-head —» I] 
p 
head 
p 





























AE 











正如 上 图 所 示 ，insert 函 数 虽 然 简单 ， 其 中 也 隐 仿 了 一 种 特殊 情况 (Special Case) 的 处 理 ， 
当 head 为 NULL 时 , 执行 insert 操 作 插入 第 一 个 节点 点 之 后 ， head 指 向 第 一 个 节点 ， 而 第 一 个 节点 


















































的 next 指 针 域 成 为 Norr ， 这 很 合理 ， 因 为 它 也 是 最 后 一 个 节点 。 所 以 空 链表 虽然 是 一 种 特殊 情 
况 ， 却 不 需要 特殊 的 代码 来 处 理 ， 和 一 般 情 况 用 同样 的 代码 处 里 即 可 ， 这 样 写 出 来 的 代码 更 简 
清 ， 但 是 在 读 代 码 时 要 想到 可 能 存在 的 特殊 情况 。 当 然 ，insert 函 数 传 进来 的 参数 p 也 可 能 有 特 
殊 情 况 ， 传 进来 的 p 可 能 是 Nurr ， 甚 至 是 野 指针 ， 本 章 的 函数 代码 都 假定 调用 者 的 传 进来 的 参数 
是 合法 的 ， 不 对 参数 做 特别 检查 。 事 实 上 ， 对 指针 参数 做 检查 是 不 现实 的 ， 如 果 传 进来 的 

是 NvLL 还 可 以 检查 一 下 ， 如 果 传 进来 的 是 野 指 和 |+， 根 本 无 法 检查 它 指向 的 内 存单 元 是 不 是 合法 
的 ，C 标 准 库 的 函数 通常 也 不 做 这 种 检查 ， 例 如 strcpy p, nui 就 会 引起 段 错误 。 


接 下 来 main 隙 数 调用 search 在 链表 中 查找 某 个 节点 ， 如 果 找 到 就 返回 指向 该 市 点 的 指针 ， 找 不 
到 就 返回 NULL。 


: link search (unsigned char key) 






























































































































































































































































































































































m 

link p; 

oT (9 = Peach I Ines 
: if (p->item == key) 

i return p; 

: return NULL; 

RI 
























































search PA ZEE SE ER T AIT ZS EET PARTE OL SACRE UR E Exe 8 ENS BA 
行 ， 直 接 返 回 NULL。 





















































ni 数 调 用 aelete 从 链表 摘除 用 search 找 到 的 节点 ， 最 后 调用 free_nodae 释 放 它 的 存储 
空间 。 


: link delete(link p) 


R1 

link prev; 

: if (p == head) { 

head = p-»next; 

eee op 

| } 

' for (prev = head; prev; prev = prev->next) 
: if (prev-»next == p) { 
prev-»next = p-»next; 
: return p; 

: } 

| return NULL; 

Ey 





图 26.2. 链表 的 删除 操作 


head==p 的 特殊 情况 


head 
p 
head 
head=p->next 
p 
APT 
head 
a SO 
"n 结束 条 件 
prev prev ! rev==NULL 
ais Li ET 
t =! to t 


找到 prev-> next==p 
的 位 置 









prev->next=p->next 


prev 















































从 上 图 可 以 看 出 ， 要 摘除 一 个 市 点 需要 首先 找到 它 的 前 趋 然后 才能 做 摘除 操作 ， 而 在 单 链表 
通过 某 个 市 点 只 能 找到 它 的 后 继而 不 能 找到 它 的 前 趋 ， 所 以 删除 操作 要 麻烦 一 些 ， 需 要 从 第 
个 节点 开始 依次 查找 要 摘除 的 节点 的 前 趋 。aelete 操 作 也 要 处 理 一 种 特殊 情 况 ， 如 果 要 摘除 的 
TR Ve BERE AS T 点 ， 它 是 没有 d 这 种 情况 要 用 特殊 的 代码 处 理 ， 而 不 能 和 一 般 情 
况 用 同样 的 代码 人 处理。 JXEMRARHE, f BSCR OLS LA — ART OLE 2 AY EA 
Hdelete PK Zt P MIX 文 样 : 






































































































































































































































: link delete(link p) 


E 

link *pnext; 

: for (pnext = &head; *pnext; pnext = &(*pnext) —>next) 
| ie (Meee == jp) | 

| *pnext = p-»next; 

| return p; 

| } 

: return NULL; 

P] 

















图 26.3. 消除 特殊 情况 的 链表 删除 操作 





head 

















































































































































































































































































































Xs of SER 
SODABU STIR i i 
(&&headf&st) r T! r T! 
pnext "-— 结束 条 件 
*pnext==NULL 
找到 *pnext== p 
的 位 置 e 
pnext 
p 
*pnext=p->next Ff 7 
pnext 
p 
定义 个 指向 指针 的 指针 pnext , 在 for 循 环 中 pnext 裔 历 的 是 指向 链表 中 各 节 点 的 指针 域 ， 这 样 
就 把 heaa 指 针 和 各 节点 的 next 指 针 统一 起 来 了 ， 可 以 在 一 个 循环 中 处 理 。 
然后 main PR? ži traverse Ži 数 遍历 整个 链表 ， Val FA dest roy K 数 销 毁 整 个 链表 。 请 读者 自己 阅 
读 这 两 个 函数 的 代码 。 
如 果 限 定 每 次 只 在 链表 的 头 部 插入 和 删除 元 素 ， 就 形成 一 个 LIFO 的 访问 序列 ， 所 以 在 链表 头 部 
插入 和 删除 元 素 的 操作 实现 了 堆栈 的 pusn 和 pop 操 作 ，main 函 数 的 最 后 几 步 把 链表 当成 推 栈 来 操 
作 ， 从 打印 的 结果 可 以 看 到 出 栈 的 顺序 和 入 栈 是 相反 的 。 想 一 想 ， 用 链表 实现 的 堆栈 和 第 2 15 
“ 扒 栈 ?中 用 数组 实现 的 堆栈 相 比 有 什么 优点 和 缺点 ? 
习题 
、 修 改 insert 函 数 实现 插入 排序 的 功能 EE d 每 次 插入 数据 都 要 在 
Pa ! 找 到 合适 的 位 置 再 插入 。 在 第 6 节 “ 折 半 碍 找 ?中 我 们 看 到 ， 如 有 果 数 组 中 的 元 素 是 有 序 排 
列 的 ， 可 以 用 折 半 查找 法 更 快 地 找到 某 不 元 素 ， 想 一 想 如 果 链 表 中 的 节点 是 有 序 排 列 的 ， 是 
否 适 用 折 半 查找 算法 ? 为 什么 ? 











2、 基于 单 链表 实现 队列 的 enqueue 和 aegqueue 操 作 。 在 链表 的 末 
想 一 想 能 不 能 反 过 来 5 在 head 人 处 enqueue 而 










































































在 tai ] 处 snqueue 5 在 heaa 处 aeaueue o 

在 tai ] 处 aeaueue ? 

1.2. 双向 链表 

链表 的 aelete 操 作 需 要 首 

表 头 开始 依次 查找 ， 对 于 n 个 市 点 的 链表 ， 
每 个 节点 再 维护 一 个 指向 前 趋 的 指 


O(1) 























Doubly Linked List 




















先 找到 要 摘除 的 节点 的 前 趋 ， 而 在 单 链表 中 找 某 
删除 操作 的 时 间 复 杂 度 为 O(n)。 


尾 再 维护 一 个 指针 tail ， 


























到 ， 如 





可 以 想像 得 





EF 针 ， 删 除 操作 就 像 插 入 操作 一 样 容易 了 ， 








时 间 复 杂 度 


And 





Z| 

















为 ” ， 这 称 为 双向 链表 ( 
改动 两 个 地 方 。 




















构 体 定义 : 





在 linkedlist.h 





| struct node { 
i unsigned char item; 
link prev, next; 


iy; 


) 。 要 实现 双向 链表 只 




















看 在 上 一 节 代码 的 基础 上 








在 linkealist.c 中 修改 insert 和 aelete 国 数 : 





i void insert (link p) 


E 
p-»next - head; 

if (head) 

head->prev = p; 

head = p; 
: p->prev = NULL; 
i 
pubs delete(link p) 
Pd 
; if (p->prev) 
p-»prev-»next = p-»next; 
else 
: head = p-»next; 
; if (p->next) 
p->next->prev = p-»prev; 
pervia {OP 
: } 





图 26.4. 双向 链表 
head 

ce [5] 
head 













































































T previ ft , insert 和 adelete 国 数 








H 





bh 有 一 些 特殊 情况 外 


特殊 的 代码 处 





fee EE ， 不 能 和 
^. 











HIFÉBECRIAESR, ixdEmA3E, ü 





E 表 头 和 表 


各 添加 一 个 Sentinel 节 点 (这 两 个 



















































































界定 表 头 和 表 尾 ， 不 保存 数据 ) , WW 


: /* doublylinkedlist.h */ 
: #ifndef DOUBLYLINKEDLIST_H 
: #define DOUBLYLINKEDLIST H 




















i typedef struct node *link; 
ou nede i 

: unsigned char item; 
link prev, next; 


m 


' link 
! void 
: link 
: void 
; link 


make_node (unsigned char item); 
free node(link p); 
Search(unsigned char key); 
insert(link p); 

delete(link p); 








巴 这 些 特 殊 情 况 都 转化 为 一 般 情 况 了 。 

















: void 
: void 
; void 
: link 


traverse(void (*visit) (link)); 
destroy (void); 

enqueue(link p); 

dequeue (void); 


| endif 





: /* doublylinkedlist.c */ 


i #incl 


lude <stdlib.h> 





; #incl 


‘ struct node tailsentinel; 


i { 


lude "doublylinkedlist.h" 








"tru node headsentinel = (0, NULL, &tailsentinel}; 
i struct node tailsentinel = (0, &headsentinel, NULL}; 
‘static link head = &headsentinel; 
stale link tail = &tailsentinel; 
' link make node (unsigned char item) 
link p = malloc(sizeof *p); 
p->item = item; 
p->prev = p->next = NULL; 
return p; 
void free_node(link p) 
free (p); 
link search(unsigned char key) 
LL 192 
for (p = head-»next; p != tail; p = p->next) 
if (p->item == key) 
IASI eI T9) 
return NULL; 
i void insert (link p) 
p->next = head->next; 
head->next->prev = p; 
head->next = p; 
p->prev = head; 
| link delete (link p) 
p->prev->next = p->next; 
P nexe -prev = p->prev; 
return p; 
i void traverse (void (*visit) (link) ) 
Lauk JOP 
for (p = head-»next; p != tail; p = p->next) 
visit (p); 
: void destroy (void) 


link q, p = head->next; 


head-»next - tail; 

tail->prev = head; 

while (p != tail) { 
q = Pi; 


B= ee 
free (q); 


这 个 例子 也 实现 了 队列 的 enqueue 和 dequeue 操 作 现在 每 个 节点 + 有 了 prev 指 
在 head 处 enqueue 而 在 tail 人 多 dequeue J o 





d 


b) 





现在 结合 





环形 队列 ， 我 们 还 





| void enqueue(link p) 


d 


insert (p); 


: link dequeue (void) 


T 


if (tail->prev == head) 
return NULL; 


else 


Uk main. e */ 
| ne Lue <stdro<n> 
: #include 


"doublylinkedlist.h" 


i void print_item(link p) 
E 


ortae (UU Ola. enn), 


Paint main (void) 


a 


link p = make node (10); 
insert (p); 

p = make node(5); 
insert (p); 

p = make node(90); 
insert (p); 

p = search(5); 

delete (p); 

free node(p); 
traverse(print item); 
destroy(); 


p = make node (100); 

enqueue (p) ; 

p = make node (200); 

enqueue (p) ; 

p = make node (250); 

enqueue (p) ; 

while (p = dequeue()) { 
print item(p); 
free node (p); 


} 


return 0; 


带 Sentinel 的 双向 链表 


head 


图 26.5. 





tail 


return delete (tail-»prev); 





se [Peb et DD Jet ] 


head 


tail 


-PRR E lolx} Fert | | 4 ~ -| | Fœ dsl +t | 





针 ， 可 以 反 过 来 





























闫 用 链表 实现 环形 队列 是 最 月 






























































合 第 5 P “环形 队列 " 想 一 想 ， 其 
不 需要 "假想 " 它 是 首尾 相 接 的 ， 而 如 细 














基于 链表 实现 环形 队列 ， 我 们 本 来 就 可 





然 的 ， 以 前 基于 数组 实现 
以 

















n 
































HIETE M~ AEZ. FEET ECR BEE (Circular Linked List) 也 非 浓 简单 Ri 


要 把 soublylinkedlist.c 中 的 





























‘ struct node tailsentinel; 
; struct node headsentinel 


| (0, NULL, &tailsentinel}; 
: struct node tailsentinel 


(0, &headsentinel, NULL); 


"stabuc bm head 
Serle lank tala 


&headsentinel; 
&tailsentinel; 


Io l 





; struct node sentinel = {0, &sentinel, &sentinel}; 
oratie link head scene me 




















改 这 两 行 ， 再 把 aoublylinkealist.c 中 所 有 的 tail 蔡 换 成 heaa 即 可 ， 相 当 于 把 tail 和 heaqa 合 二 为 
= 





图 26.6. 环形 链表 





从 这 里 dequeue 


N 







1.3. BUB E 


回想 一 下 我 们 在 例 12.4“ Eg E La” PE BOISE, AE Be, RE 
图 重新 画 在 下 面 。 



























































图 26.7. 广度 优先 搜索 的 队列 数据 结构 





row 
col 
predecessor 





这 是 一 个 静态 分 配 的 数组 ， 每 个 数组 元 素 都 有 row、 col 和 predecessor 三 个 成 员 ， predecessor 成 
员 保 存 一 个 数组 下 标 ， 指 向 数组 中 的 另 一 个 元 素 ， 这 其 实 也 是 链表 的 一 种 形式 ， 称 为 静态 链 
表 ， 例 如 上 图 中 的 第 6、4、2、1、0 个 元 素 串 成 一 个 链表 。 





2. 二 又 树 


第 26 章 链表 、 二 又 树 和 哈 硕 表 





2. 二 又 树 
2.1. 二 又 树 的 基本 概念 


链表 的 每 个 节点 可 以 有 一 个 后 继 ， 而 二 义 树 (Binary Tree) 的 每 个 节点 可 以 有 两 个 后 继 。 比 如 

这 样 定义 二 又 树 的 节点 : 
AN 
oie es moder 4 


unsigned char item; 
ALaliae iL, 38g 


E 





这 样 的 节点 可 以 组 织 成 下 图 所 示 的 各 种 形态 。 





图 26.8. 二 又 树 的 定义 和 举例 


Z ERANSTEN 


L 空 -2 





4 
fy p 
EFR s AFIR 

举例 

root : 
单 节点 
OEP 

X X 
root 





二 又 树 可 以 这 样 递归 地 和 定义 : 


1. 就 像 链表 有 头 指 针 一 样 ， 每 个 二 叉 树 都 有 一 个 根 指针 (上 图 中 的 root 指 针 ) 指向 它 。 根 指 
针 可 以 是 ur ， 表 示 空 二 叉 树 ， 或 者 


2. 根 指针 可 以 指向 一 个 节点 ， 这 个 节点 除了 有 数据 成 员 之 外 还 有 两 个 指针 域 ， 这 两 个 指针 域 
又 分 别 是 另外 两 个 二 叉 树 ( 左 子 树 和 右 子 树 ) 的 根 指针 。 


上 图 举例 示意 了 儿 种 情况 。 
。 单 节点 的 二 又 树 : 左 子 树 和 右 子 树 都 是 空 二 又 树 。 
e 只 有 左 子 树 的 二 又 树 : 右 子 树 是 空 二 又 树 。 
e 只 有 右 子 树 的 二 叉 树 : 左 子 树 是 空 二 又 树 。 


一 般 的 二 叉 树 : 左右 子 树 都 不 为 空 。 注 意 右 侧 由 图 和 线段 组 成 的 简化 图 示 ， 以 后 我 们 都 采 
用 这 种 简化 图 示 法 ， 在 圈 中 标 上 该 节点 数据 成 员 的 值 。 


链表 的 遍历 方法 是 显而易见 的 : 从 前 到 后 遍历 即 可 。 二 又 树 是 一 种 树 状 结构 ， 如 何 做 到 把 所 有 
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市 点 都 走 一 遍 不 重 不 漏 呢 ? 有 以 下 几 种 方法 : 


图 26.9. 二 叉 树 的 遍历 


前 序 高 内 : 421356 


HAED : 123456 
EPEA : 132654 





ER : 425136 

















前 序 (Pre-order Traversal) 、 ! 序 (In-order Traversal) 、 后 序 遍 历 (Post-order 
人 
PAW 


前 序 和 中 序 遍历 的 结果 合 在 一 起 可 以 唯一 确定 二 叉 树 的 形态 ， 也 就 是 说 根据 遍历 结果 可 以 构造 
出 二 又 树 。 过 程 如 下 图 所 示 : aS ed 可 以 构造 



















































































图 26.10. 根据 前 序 和 中 序 遍 历 结 果 构 造 二 又 树 














Bü: 4 213 56 


i$ A n 
HERES: 123 4 56 
左 i och 
AAW 
(4) 前 序 遍历 : 2 1 3 
iR 左 A 
HERE:I1 2 3 
A 根 
(2) G T 
APEA: 5 X 6 
i$ A 
(1) © Ce) Heh: X 5 6 
A tf om 















































AE TEP US ad 2 ORE CIS UE? ART A AJ Hoi 2 ORE G gas — 


iy * binaryereanh = 
: #ifndef BINARYTREE H 
: #define BINARYTREE H 


i typedef struct node *link; 
dcn node i 

: unsigned char item; 

| ll dL. 38g 
m 


RNR tree_init (unsigned char VLR[], unsigned char LVR[], int n); 
' void pre order(link t, void (*visit) (link)); 

i void nO ET (lala te, EO: C (walle) (nl 

i void post_order(link t, void (*visit) (link)); 

p une COVE (Labo 16) 2 

D int depth (link t); 

i void destroy(link t); 


| endif 





i /* binarytree.c */ 
p gnele «stoppen 
: #include "binarytree.h" 


i static link make_node (unsigned char item) 
me 
i link p = malloc (sizeof *p); 
p->item = item; 

=> SS Se cs Ne 

return p; 





a 


: static void free node(link p) 
Et 

: free(p); 

RJ 


: link tree init(unsigned char VLR[], unsigned char LVR[], int n) 


a 


Ligas 16.8 
Ine k; 
if (n <= 0) 
return NULL; 
icone (Ue = OF VERTO Ye VAR] e 
t = make node (VLR[0]); 
t->1 = 七 ee_ init (VLR+1, LVR, k); 
t->r = tree init (VLR+1+k, LVR+1+k, n-k-1); 
return t; 








E 


i void pre order(link t, void (*visit) (link)) 
ET 
! if (!t) 

return; 
sabe (Ge) E 
[onse meon cle Ge I 
SS 


i} 


i void me od clem d EP EVO C vs ATAK) 
:( 
: aum (ae) 

return; 
in order(t-»1, visit); 
xab ate; C), 
in order(t-»r, visit); 


d 


: void post order(link t, void (*visit) (link)) 


Ez 





asm (M) 

return; 
post order(t-»1, visit); 
post order(t-»r, visit); 
sabe (Ge) g 


i} 


: int count (link t) 
: { 
: ads (se) 

return 0; 
aew buaa. di => XeXexbuaus, (E — 1L) se eine (ic Sse) E 


> 


: int depth (link t) 
E 
: int dl, dr; 
aa (i) 
returno, 
dl depth (t->1); 
dr = depth(t-»r); 
ee Dam di 4» euL z- tele 7 cll S Che, 


a 


: void destroy (link t) 
ET 
i post_order (t, free_node); 


i) 





Rr PEmad e “/ 
: #include <stdio.h> 
: #include "binarytree.h" 





i void print item(link p) 
: { 
: jouealigtese (Weel = > em 
: 


: int main () 
P4 
: unsigned char pre-seq[] = { 4, 2, 43, 3, 6, 5, 7 }; 
unsigned charam segil = { I, 42 Sy “4, Sp 6, v7 ie 


pre_order (root, print item); 
putchar (yahe 

in_order (root, print_item); 
jeibne laus (| U Nor! )) e 

post order(root, print item); 
East )) e 


destroy (root); 
return 0; 


link root = tree init(pre seg, in seq, 7); 


printf("count-$d depth=%d\n", count (root), 


depth (root)); 





2.2. 排序 二 又 树 

















排序 二 又 树 (BST, Binary Search Tree) 具有 这 样 的 性 质 : 对 于 二 又 树 中 的 任意 节点 ， 如 忆 





























有 左 孩 子 或 右 孩子 节点 ， 则 该 节点 的 数据 成 员 大 于 左 孩 子 的 数据 成 员 ， 且 小 于 右 孩 子 的 数据 成 


"uL H 



































员 。 排 序 二 又 树 的 中 序 遍 历 结 果 是 从 小 到 大 排列 的 ， 其 实 上 一 市 的 
排序 二 又 树 。 











x bern t 
sneer BST-H 
: define BST H 


‘typedef struct node *link; 
i struct node { 

! unsigned char item; 

i ALalia dio 8p 
D 


; link search(link t, int key); 
|! link insert (link t, int key); 
; link delete(link t, int key); 
: void prhineeeree (linkit); 





| endif 





26.9" 





| 7 SEE 

i #include <stdlib.h> 
: #include <stdio.h> 
; #include IGI clou 


| static link make node(unsigned char item) 
i { 
i link p = malloc(sizeof *p); 
p->item = item; 

p->l = p->r = NULL; 

return p; 





c 


i static void free node(link p) 


i { 
free (p); 
p 
: link search (link t, int key) 
B 
ae (1e) 
return NULL; 
if (t->item > key) 
return search (t->l, key); 
if (t->item < key) 
return search(t->r, key); 
/* if (t-»item == key) */ 
return t; 
:] 


: link insert (link t, int key) 
B 


Ad 


Č 





age (ie) 
return make_node (key); 

if (t-»item > key) /* insert to left subtree */ 
t-»1 = insert(t-»51, key); 

else /* if (t-»item <= key), insert to right subtree */ 
t-»r = insert(t-»r, key); 

return t; 


z 


| link delete(link t, int key) 
: { 
i Ue op 


ase (T) 
return NULL; 
(em > key) /reel ccon lert sul tiec 
t-»1 = delete(t-»51, key); 
else if (t->item « key) /* delete from right subtree */ 
t-»r = delete(t-»r, key); 
else { /* if (t->item == key) */ 
i if (t-»1 == NULL && t-»r == NULL) { /* if t is 
‘ leaf node */ 
| free node(t); 
t = NULL; 
} else if (t->1) { /* if t has left subtree */ 
/* replace t with the rightmost node in 





: left subtree */ 
i for (p=t->l; p-»r; p=p->r); 
t-»item = p->item; 
t-»1 = delete (t->l, t->item); 
} else if (t-»r) { /* if t has right subtree */ 
i /* replace t with the leftmost node in 
"right subtree */ 
; for (p=t->r; p-»51; p=p->1); 
t->item = p->item; 
t->r = delete(t->r, t->item); 
} 
} 
ie en 


z 


: void print_tree(link t) 
: { 
| ab. (ED qd 
Pra me (C9! (^y p 
BE (Em) 
print tree(t->1); 
print tree(t-»r); 
ngakin (C4) We 
} else 
printi (60 O}; 





woe) imam ve 7 

: finclude <stdio.h> 
i #include <stdlib.h> 
i #include <time.h> 
iMpuncihide: Vast hni 





| #define RANGE 100 
p eemi Ne > 


| void print item(link p) 
: { 
printf ("Sd", p-—>item); 
:] 


i int main() 
B4 
int i, key; 

link root = NULL; 
srand(time (NULL)); 

FOr (aL = OF a x INP aes) 





root = insert (root, rand() % RANGE); 
Dn ANEAN ECCLA) 8 
print_tree (root); 
SI (VN Word) 9 
while (root) { 
key = rand() % RANGE; 
if (search(root, key)) { 
printf("delete $d in tree\n", key); 
root = delete(root, key); 
josastyouea (4 Wie \ verses) g 
print_tree (root); 
jossabgte se (1 Woy Na) e 


ig ./a.out 
| \tree (83(77(15() (350 ())) 00 (860 (930 0))) 


i delete 86 in tree 
\tree (83(77(15() (350) 00) 0) (930 ())) 


i delete 35 in tree 
| Miscecr(s (L(y (7 SER BN) 


: delete Om Ecco 
: \tree (83(77(15() 0) 00) O) 





| delete LS LA T26 
| NESS ee O O) O) 


i delete 83 in tree 
' \tree(77() ()) 





: delete 77 in tree 
\t ree () 

















eran’ 








旦 序 的 运行 结果 可 以 用 Greg Lee 编 写 的 The Tree 
Preprocessor (http:;//www.essex.ac.uk/linguistics/clmt/latex4ling/trees/tree/) 转换 成 树 形 : 




















: delete 86 in tree 
H js 


: delete 35 in tree 
| 83 


i delete 93 in tree 


Ed E We abe owes 


: delete GS im eree 


i delete 77 in tree 





3. 哈 希 表 
J 第 26 章 链表 、 二 又 树 和 哈 希 表 Ti 





下 图 示意 了 哈 希 表 (Hash Table) 这 种 数据 结构 。 


图 26.11. FFK 





Ls T 0] 


OJ Ou rh WN ”= Oo 


I 
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Hd | bel PE 
概念 模型 12|57 38] |7 98 


0123 45 67 8 9 10 











如 上 图 所 示 ， 首 先 分 配 一 个 指针 数组 ， 数 组 的 每 个 元 素 是 一 个 链表 的 头 指针 ， 每 个 链表 称 头 
个 权 (Slot) 。 哪 个 数据 应 该 放 入 哪个 槽 中 由 哈 希 函数 决定 ， 在 这 个 例子 中 我 们 简单 地 选取 哈 希 
PRIS (x) = x 9e 11， 这 样 任意 数据 x 都 可 以 映射 成 0~10 之 间 的 一 个 数 ， 就 是 槽 的 编号 ， 将 数据 放 
入 某 个 槽 的 操作 就 是 链表 的 插入 操作 。 


如 By TS 1 至 多 只 有 个 数据 ， 可 以 想像 这 种 情况 下 insert、 delete 和 search 操 作 的 时 间 复 杂 
度 都 是 O(1)， 但 有 时 会 有 多 个 数据 被 哈 希 函数 映射 到 同一 个 模 中 ， 这 称 为 碰撞 (Collision) ， 设 
计 一 个 好 的 哈 希 函数 可 以 把 数据 比较 均匀 地 分 布 到 各 个 模 中 ， 尺 量 避 人 免 磁 撞 。 如 果 能 把 n 个 数据 
比较 均匀 地 分 布 到 m 个 横 5a 每 个 粳 里 约 有 nm 个 数据 ， 则 insert、adaelete 和 search 探 作 的 时 间 
复杂 度 都 是 O(n/m)， 如 果 n 和 m 的 比 是 常数 ， 则 时 间 复 杂 度 仍然 是 O(1)。 一 般 来 说 ， 要 处 理 的 数 
据 越 多 ， 构 造 喻 希 表 时 分 配 的 模 也 应 该 越 多 ， 所 以 n 和 mm 成 正比 这 个 假设 是 成 立 的 。 


pe 


请 读者 自己 编写 程序 构造 这 样 一 个 哈 希 表 ， 并 实现 insert、aelete、search 操 作 。 


如 果 用 我 们 学 过 的 各 种 数据 结构 来 表示 n 个 数据 的 集合 ， 下 表 是 insert 和 searcn 操 作 的 平均 时 间 
复杂 度 比较 。 





















































































































































































































































































































































表 26.1. 各 种 数据 结构 insert 和 search 操 作 的 平均 时 间 复 杂 度 比较 


yn E) 

















FE 序 二 又 树 


KAR (〈n 己 槽 效 m 成 正比 ) 






































我 们 没有 比较 aelete 操 作 ， 因 为 在 本 章 的 示例 代码 中 ， 链 表 的 aelete 操 作 是 把 一 个 事先 找到 的 市 
点 传 给 它 做 删除 操作 ， 而 排序 二 又 树 的 aelete 操 作 是 一 边 找 要 删除 的 节点 一 边 做 删除 操作 ， 没 
有 可 比 性 。 请 读者 目 己 比较 各 种 数据 结构 删除 操作 的 时 间 复 杂 度 。 
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1 .汇编 程序 的 Hello world 
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3. open/close 
4. read/write 


5. Iseek 
6. fcntl 
7. ioctl 


8. mmap 




















3.1. 内 核 数据 结 检 

















3.1. fork KAŽ% 
3.2. execrA ZH 
3.3. waitfllwaitpid PK 2x 
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1. 汇编 程 Belo world 





3. open/close 
4. read/write 


5. Iseek 
6. fcntl 
7. ioctl 


8. mmap 





从 本 章 开 始 学 习 各 种 Linux 系 统 函 数 ， 这 些 函 数 的 用 法 必须 结合 Linux 内 核 的 工作 原理 来 理解 ， 因 
为 系统 函数 正 是 内 核 提 供给 应 用 程序 的 接口 ， 而 要 理解 内 核 的 工作 原理 ， 必 须 熟 练 税 握 C 语 言 ， 
因为 内 核 也 是 用 C 语 言 写 的 ， 我 们 在 描述 内 核 工 作 原理 时 必然 要 用 "指针"、“ 结 构 体 "、“ 链 表 * 这 
些 名 词 来 组 织 语言 ， 就 像 只 有 掌握 了 英语 才能 看 懂 英 文书 一 样 ， 只 有 学 好 了 C 语 言 才能 看 懂 我 描 
述 的 内 核 工作 原理 。 读 者 看 到 这 里 应 该 已 经 熟练 掌握 了 C 语 言 了 ， 所 以 应 该 有 一 个 很 好 的 起 点 
了 。 我 们 在 介绍 C 标 准 库 时 并 不 试图 把 所 有 库 函 数 讲 一 遍 ， 而 是 通过 介绍 一 部 分 M SIRE 
把 握 库 函数 的 基本 用 法 ， 在 掌握 了 方法 之 后 ， 书 上 没 讲 的 库 函 数 读者 应 该 自己 查 Man Page% 
使 用 。 同 样 ， 本 书 的 第 三 部 分 也 并 不 试图 把 所 有 的 系统 函数 讲 一 壳 ， 而 是 通过 介绍 一 部 分 PRA 
PESTLE BUR EERE RCA HEAT WI EE, FE Tx T IERI Je SU VIRES Man Page% 
习 其 它 系统 函数 的 用 法 。 


读者 可 以 结合 [APUE2e] 学 习 本 书 的 第 三 部 分 ， 该 书 在 讲解 系统 函数 方面 更 加 全 面 ， 但 对 于 内 核 
工作 原理 涉及 得 不 够 深入 ， 而 且 假 定 读 老 具有 - 定 的 操作 系统 基础 知识 ， 所 以 并 不 适合 初学 
者 。 该 书 还 有 一 点 非常 不 适合 初学 者 ， 作 者 不 辞 劳 若 ， 在 N 多 种 UNIX 系 统 上 做 了 实验 ， 分 析 了 
把 每 个 系统 函 ; 数 在 各 种 UNIX 系 统 上 的 不 兼容 特性 总 结 得 非常 详细 ， 很 多 开发 
要 编写 可 移植 的 应 用 程序 ， 一 定 爱 死 他 了 ， 但 初学 者 看 了 大 段 大 段 的 这 种 描述 ( 某 某 函数 
在 4 2BSD 上 怎么 样 ， 到 4.4BSD 又 改 成 怎么 样 了 ， 在 SVR4 上 怎么 样 ， 到 Solaris 又 改 成 怎么 样 
pa 现在 POSIX 标 准 是 怎么 统一 的 ， 还 有 哪些 系统 没有 完全 遵守 POSIX 标 准 ) 只 会 一 头 雾 水 ， 
不 看 倒 还 明白 ， 越 看 越 不 明白 了 。 也 正 因为 该 书 要 兼顾 各 种 UNIX 系 统 ， 所 以 没 法 深入 讲解 内 核 
的 工作 原理 ， 因 为 每 种 UNIX 系 统 的 内 核 都 不 一 样 。 而 本 书 的 侧重 点 则 不 同 ， 只 讲 Linux 平 台 的 特 
性 ， 只 讲 Linux 内 核 的 工作 原理 ， 涉及 体系 结构 时 只 讲 xX86 平 台 ， 对 于 初学 者 来 说 ， 绑 定 到 一 个 
明确 的 平台 上 学 习 就 不 会 ` 会 觉得 太 抽 象 了 。 当然 本 书 的 代码 也 会 尽量 兼顾 可 移植 性 ， 避免 依赖 
于 Linux 平 台 特 有 的 一 些 特性 。 
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之 前 我 们 学 习 了 如 何 用 C 标 准 VO 库 读 写 文件 ， 本 章 详 细 讲 解 这 些 VO 操 作 是 怎么 实现 的 。 所 
有 IO 操作 最 终 都 是 在 内 核 中 做 的 ， 以 前 我 们 用 的 C 标 准 VO 库 函数 最 终 也 是 通过 系统 调用 把 VO 操 
作 从 用 户 空 间 传 给 内 核 ， 然 后 让 内 核 去 做 MO 操作， 本 章 和 下 一 章 会 介绍 内 核 中 MO 子 系统 的 工作 
原理 。 首 先 看 一 个 打印 Hello world 的 汇编 程序 ， 了 解 VO 操 作 是 怎样 通过 系统 调用 传 给 内 核 的 。 
例 28.1. 汇编 程序 的 Hello world 

IO ei E 

: declaration 

i meee 

.ascii "Hello, world!\n" # our dear 

i string 

len = . - msg # length of our 


| dear string 
: .text 


! declaration 


| point to the ELF linker 
i .global start 
"recognize Start as the 
| override the default. 


| start: 


E write our string to s 


和 movl Slen, tedx 
: message length 

: movl $msg, %ecx 
! pointer to message to write 
: movl $1, %ebx 

! handle (stdout) 

i movl $4, %eax 

: (sys write) 

: int $0x80 

i and exit 

: movl $0, %ebx 

: code 

i movl $1,%eax 

: (sys_exit) 

: int $0x80 


# entry point. 


# section 


# we must export the entry 


or 
# loader. 
IE 


They conventionally 


Use ld -e foo to 


tdout 

third argument: 
second argument: 
file 


first argument: 


system call number 


S$ FO EO HEHE 


call kernel 


first argument: exit 


system call number 


call kernel 








像 以 前 一 样 ， 汇 编 、 链 接 、 运 行 : 





| $ as -o hello.o hello.s 
ald =o hello hello © 
i$ ./hello 


: Hello, world! | 


这 段 汇编 相当 于 以 下 C 代 码 : 


| #include <unistd.h> 











: char msg[14] = "Hello, world!\n"; 
| #define len 14 


i int main (void) 


i 


write(1, msg, len); 
We xa (01) & 

















.data 段 有 一 个 标号 msg， 代 表 字 符 串 "Hel1o，world!i\n" 的 首 地 址 ， 相 当 于 C 程 序 的 一 个 全 局 变 
量 。 注 意 在 C 语 言 中 字符 串 的 末尾 隐 含 有 一 个 ,\o' ， 而 汇编 指示 .ascii 定 义 的 字符 串 末 尾 没 有 隐 
含 的 '\0'。 汇 编程 序 中 的 1en 代 表 一 个 常量 ， 它 的 值 由 当前 地 址 减 去 符号 msg 所 代表 的 地 址 得 
到 ， 换 名 话说 就 是 字符 串 "ello，worldat\n" 的 长 度 。 现 在 解释 一 下 这 行 代码 中 的 .， 汇 编 锅 总 是 
从 前 到 后 把 汇编 代码 转换 成 目标 文件 ， 在 这 个 过 程 中 维护 一 个 地 址 计数 絮 ， 当 处 理 到 每 个 段 的 
开头 时 把 地 址 计数 器 置 成 0， 然 后 每 处 理 一 条 沪 编 指示 或 指令 就 把 地 址 计数 如 增加 相应 的 字 市 
数 ， 在 汇编 程序 中 用 .可 以 取出 当前 地 址 计数 需 的 值 ， 是 一 个 常量 。 


在 _start 中 调 了 两 个 系统 调用 ， 第 一 个 是 write 系统 调用 ， 第 二 个 是 以 前 讲 过 的 _exit 系 统 调 

用 。 在 调 write 系 统 调用 时 ，eax 寄 存 器 保存 看 write 的 系统 调用 号 4，ebx、ecx、edx 寄 存 器 分 别 
保存 着 write 系统 调用 需要 的 三 个 参数 。epx 保 存 着 文件 描述 符 ， 进 程 中 每 个 打开 的 文件 都 用 一 
个 编号 来 标识 ， 称 为 文件 描述 符 ， 文 件 摘 述 符 1 表 示 标 准 输出 ， 对 应 于 C 标 准 VO 库 
的 staout o ecx 保 存 着 输出 绥 冲 区 的 首 地 址 。 edx 保 存 关 输出 的 字 市 数 。 write 系 统 调用 把 
从 msg 开 始 的 len 个 字 贡 写 到 标准 输出 o 


CREF B write KBE AZ ial AY Ae eR, ELA SSC ETE EYER = 1 282805) RU RA 
给 sbx、 ecx、 edx ITAN, 然后 执行 movl $4,gseax 和 int $0x80 两 条 指 邻 。 这 个 函数 不 可 能 完 
用 C 代 码 来 写 ， 因 为 任何 C 代 码 都 不 会 编译 生成 int 指 令 ， 所 以 这 个 函数 有 可 能 是 完全 用 汇编 写 
的 ， 也 可 能 是 用 C 内 联 汇 编写 的 ， 甚 至 可 能 是 一 个 宏 定 义 (省 了 参数 入 栈 出 栈 的 步 

BR) 。_exit 水 数 也 是 如 此 ， 我 们 讲 过 这 些 系 统 调用 的 包装 函数 位 于 Man Page 的 

第 2 个 Section。 
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2. CREVO ŽK% Unbuffered VO rk Zi 


现在 看 看 C 标 准 l/O 库 函数 是 如 何 用 系统 调用 实现 的 。 








fopen (3) 


调 














出 


FA open (2) 打开 指定 的 文件 ， 


























返回 一 个 文件 描述 符 〈 就 是 一 个 int 类 型 的 编号 ) ， 分 配 一 























个 FILE 结 构 体 ， 其 中 包含 该 文件 的 描述 符 、I/O 绥 冲 区 和 当前 读 写 位 置 等 信息 ， 返 回 这 























个 FILE 结 构 体 的 地 址 。 


fgetc(3) 









































通过 传 入 的 FILE AREA CPA. VOSESPDORIA BIS CE, FUT AE TT 
从 IO 缓冲 区 中 读 到 下 一 个 字符 ， 如 果 能 读 到 就 直接 返回 该 字符 ， 否 则 调用 reaa(2) SX 
件 描述 符 传 进去 ， 证 内 核 读 取 该 文件 的 数据 到 MO 缓冲 区 ， 然 后 返回 下 一 个 字符 。 注 意 ， 对 












































需要 传 文件 描述 符 。 


fputc(3) 





于 C 标 准 VO 库 来 说 ， 打 开 的 文件 由 Fizrzg * 指 针 标 识 ， 而 对 于 内 核 来 说 ， 打 开 的 文件 由 文件 
描述 符 标识 ， 文 件 描述 符 从 open 系 统 调用 获得 ， 在 使 用 reaa、write、close 系 统 调 用 时 都 






















































































判断 该 文件 的 MO 缓冲 区 是 否 有 空间 再 存放 一 个 字符 ， 如 果 有 空间 则 直接 保存 在 MO 缓冲 区 

















中 并 返回 ， 如 果 VO 组 冲 区 已 满 就 调用 write(2) ， 让 内 核 把 /O 绥 冲 区 的 内 容 写 回 文件 。 


fclose (3) 







































































如 果 VO 缓 冲 区 中 还 有 数据 没 写 回 文件 ， 就 调用 write(2) 写 回 文件 ， 然 后 调用 close(2) 关闭 
文件 ， 释 放 FILE 结 构 体 和 |/O 绥 冲 区 。 
































以 写 文 件 为 例 ，C 标 准 MO 库 函数 (printf (3)、putchar (3)、fputs (3) ) 与 系统 调用 write (2) 的 


关系 如 下 图 所 示 。 


图 28.1. 库 函 数 与 系统 调用 的 


printf, putchar, fputs 








用 户 空间 


内 核 空间 


open. ready write, close 等 系统 函数 称 为 无 绥 } 
于 C 标 准 库 的 W/O 缓冲 区 的 底层 上 和 站。 用 户 程序 在 读 写 文件 














直接 调用 底层 的 Unbuffered I/O 函数 ， 


e 用 Unbuffered I/O rk 
慢 很 多 ， 所 以 在 用 









































MO (Unbuffered I/O) 函数 ， 


因为 它们 位 












































AIHUGS 





D DOA PRA o 








VOR 

















© 用 C 标 准 I|/O 库 
用 fflush(3) 。 














。 R 
设备 ， 
ROCHE 








了 ， 当 网 络 设备 接收 到 
调用 Unbuffered 1/0% 





C 标 准 库 函数 是 C 标 准 的 一 部 分 




















门 知 道 UNIX 的 传统 是 Everything i is a file, 
比如 终端 或 网 络 设备 。 在 读 





写 数 据 就 是 硕 望 数 














KAROR S 
站 空间 开辟 1/O 绥 ? 


函数 要 时 刻 注意 MO 组 ; 




















进 内 核 ， 调 





时 既 可 以 调用 C 标 准 l/O 库 浮 数 ， 也 可 以 
那么 用 哪 一 组 函数 好 呢 ? 


























区 还 是 必 : 











的 ， 用 C 标 准 VO 库 




















! 区 和 实际 文 伯 

















TE 写 设备 时 通 4 
据 通 过 网 络 设备 发 送出 去 ， 























数 








据 时 应 月 











PRIA 0 




















调 一 个 系统 调用 Same. 
函数 就 比较 方便 ， 





有 可 能 不 一 致 ， 在 必 ; 


VORB T ES LICE, 


Hea BABY, PARI] 




















站 空间 seis 




















时 需 调 





也 用 于 读 写 
代表 网 络 设备 



































而 不 硕 望 只 写 到 组 ? 
程序 也 希望 第 一 时 间 被 通知 到 ， 所 以 网 络 编程 通 


而 Unbuffered I/O FR ZI UNIX nA abt , 








! 区 里 就 算 完事 儿 
前 常 直 接 


























在 所 有 支持 C 语 








言 的 平台 上 应 该 都 可 以 用 C 标 准 库 函数 (除了 有 些 平台 的 C 编 译 需 疫 有 完全 符合 C 标 准 之 外 ) ， 


而 只 有 在 UNIX 平 台 上 才 色 Eft H Unbuffered VOR 所 以 C 标 准 MO 库 函数 在 头 文件 
write st Pf 数 在 头 文件 
另外 一 组 系统 函数 支持 ， Paina 人 


WriteFileo 





明 5 而 read、 
准 VO 库 的 底 





Ay HE 
写 文件 的 系统 函数 是 ReadFile、 














runistd.h 














声明 。 





ELCHE E 

















stdio. hn 中 声 





EUNIX 操 作 系统 上 ， 标 
ze Win32 API， 其 




















D 











关于 UNIX 标 准 





POSIX (Portable Operating System Interface) 是 由 IEEE4 


标准 ， 致 力 于 统一 各 种 UNIX 系 统 的 接 





相 兼 容 的 发 向 发 展 。 


























判定 的 
口 ， 促 进 各 种 UNIX 系 统 向 互 
IEEE 1003.1 (也 称 为 POSIX.1) 定义 


了 UNIX 系 统 的 函数 接口 ， 既 包括 C 标 准 库 沙 数 ， 也 包括 系统 调用 

















和 其 它 UNIX 库 函数 。POSIX.1; 
不 区 分 一 个 函数 是 库 函 数 还 是 系统 调用 ， 
间 实 现 ， 哪 些 函 数 在 内 核 中 实现 ， 由 操作 系统 的 开发 者 决定 
IEEE 1003.2 和 定义 了 Shell 的 语法 和 














种 UNIX 系 统 都 不 太一 样 。 





只 定义 接 











基本 命令 的 选项 等 。 
叶 ， 也 顺带 讲解 Shell、 
础 知识 ， 




















As BEI. EA 7 不 仪 讲解 基本 的 系统 函 
基本 命令 、 帐 号 和 权限 以 及 系统 管理 
这 些 内 容 合 在 一 起 定义 了 UNIX 系 统 的 基本 特性 。 








了 很 多 不 同 的 接 



































有 些 接口 既 不 是 来 自 











在 UNIX 的 发 展 历史 上 主要 分 








BSDtL AEX E 


口 ， 比 如 BSD 的 网 络 编程 接 
而 SYSV 的 网 络 编程 接口 是 基于 STREAMS 的 TLI。 
接口 的 过 程 中 ， 有 些 接口 借鉴 BSD 的 ， 有 些 接 









































(例如 本 书 


Page 的 COMFORMING TO 部 分 可 以 看 出 来 


种 ; 


—À 

















: 讲 的 pthread 库 就 属于 这 种 ' 情况 ) 


站 而 不 定义 实现 ， 甩 以 并 


户 空 





至 于 哪些 函数 在 用 



































成 BSD 和 SYSV 两 个 派系 ， 各 目 5 








H socket, 


























£j 


1 各 种 
数 接 





POSIX 在 统一 
口 借鉴 SYSV 的 ， 还 


SYSV， 而 是 凭空 发 明 出 来 的 





， 通 过 Man 


























个 函数 接口 属于 哪 
理 况 。Linux 的 源 代 码 是 完全 从 头 编写 的 ， 并 不 继 


承 BSD 或 SYSV 的 源 代码 ， 没 有 历史 的 包 究 ， 所 以 能 比较 好 地 遵 
上 照 POSIX 标 准 实现 ， 既 有 BSD 的 特性 也 有 SYSV 的 特性 ， 此 外 还 有 
一 些 Linux 特 有 的 特性 ， 比 如 epo11 (7 





) ， 依 赖 于 这 些 接口 的 应 用 程 




















序 是 不 可 移植 的 ， 但 在 Linux 系 统 上 运行 效率 很 高 。 


POSIX 和 定义 的 接口 有 些 规定 是 必须 实现 的 ， 而 另外 一 些 是 可 以 选 
择 实现 的 。 有 些 非 UNIX 系 统 也 实现 了 POSIX 中 必 须 实现 的 部 分 ， 
BRA AY LAF PK i Sener 的 ， 然 而 要 想 声 称 自己 
是 UNIX， 还 必须 要 实现 分 在 POSIX 中 规定 为 可 选 先 实现 的 楼 
Hi. xu ie Single UNIX Specification) 规 
定 。SUS 是 POSIX 的 超 集 ， 一 部 分 在 POSIX 中 规定 为 可 选 实现 的 
接口 在 SUS 中 规定 为 必须 实现 ， 完 整 实现 了 这 些 接口 的 系统 称 
为 XSI (X/Open System Interface) 兼容 的 。SUS 标 准 由 The 
Open Group 维护 ， 该 组 织 拥 有 UNIX 的 注册 商标 





















































































































































(httpwww.unix.org/) ，XSI 兼 容 的 系统 可 以 从 该 组 织 获得 授权 
使 用 UNIX 这 个 商标 。 
































现在 该 说 说 文件 描述 符 了 。 每 个 进程 在 Linux 内 核 中 都 有 一 个 task_struct 结 构 体 来 维护 进程 相关 
的 信息 ， 称 为 进程 描述 符 (Process Descriptor) ， 而 在 操作 系统 理论 中 称 为 进程 控制 块 
(PCB, Process Control Block) 。task_struct 中 有 一 个 指针 指向 files_struct 结 构 体 ， 称 为 
文件 描述 符 表 ， 其 中 每 个 表 项 包含 一 个 指向 已 打开 的 文件 的 指针 ， 如 下 图 所 示 。 



























































































































































图 28.2. 文件 描述 符 表 





























至 于 已 打开 的 文件 在 内 核 用 1 么 结构 体 表 示 ， 我 们 将 在 下 一 章 详 细 介 绍 ， 目 前 我 们 在 画图 时 
p ode 用 户 程序 不 能 oo 的 文件 描述 符 表 ， SE HER THAR 
引 〈 即 0、1、2、3 这 些 数字 ) ， 这 些 索 引 就 称 为 文件 描述 符 (File Descriptor) ， 用 int 型 变量 
保存 。 沁 调 月。 打开 二 个 文件 或 创建 二 个 新 文件 亲 ， 内 核 分 配 一 个 文件 描述 符 并 返回 给 用 户 
程序 ， 该 文件 描述 符 表 项 中 的 指针 指向 新 打开 的 文件 。 当 读 写 文件 时 ， 用 户 程序 把 文件 描述 符 
传 给 reaa 或 write， 内 核 根 据 文 件 描述 符 找到 相应 的 表 项 ， 再 通过 表 项 中 的 指针 找到 相应 的 文 
件 。 
我 们 知道 ， 程 序 启动 时 会 自动 打开 三 个 文件 : 标准 输入 、 标 准 输出 和 标准 错误 输出 。 在 C 标 准 库 


! 分 别 用 FILE * 指 针 stqin、stdout 和 stderr 表 示 。 这 三 个 文件 的 描述 符 分 别 是 0、1、2， 保存 
在 相应 的 FILE 结 构 体 中 。 头 文件 unista.n 中 有 如 下 的 宏 定 义 来 表示 这 三 个 文件 描述 符 







































































































































































































































































: #define STDIN_FILENO 0 
i fdefine STDOUT_FILENO 1 
| #define STDERR_FILENO 2 









































[34] 事实 上 Unbuffered VO 这 个 名 词 是 有 些 误导 的 ， 虽 然 write 系统 调用 位 于 C 标 准 库 VO 缓 冲 区 


write write 














的 底层 ， 但 在 的 底层 也 可 以 分 配 一 个 内 核 MO 缓 冲 区 ， 所 以 也 不 一 定 是 直接 写 到 文件 
的 ， 也 可 能 写 到 内 核 /O 绥 冲 区 中 ， 至 于 究竟 写 到 了 文件 中 还 是 内 核 缓冲 区 中 对 于 进程 来 说 是 没 
有 差别 的 ， 如 有 果 进 程 A 和 进程 B 打 开 同一 文件 ， 进 程 A 写 到 内 核 MO 缓 冲 区 中 的 数据 从 进程 B 也 能 
读 到 ， 而 C 标 准 库 的 MO 缓冲 区 则 不 具有 这 一 特性 〈 想 一 想 为 什么 ) 。 





lesse 


3. open/close 


open EX] 

















最 后 的 可 变 参数 可 以 是 0 个 或 1 个 ， 由 f1ags 参 数 


在 Man Page 


l open PK] 


KZ LAFTA REE — PCF e 


3. open/close 
第 28 章 文件 与 VO 





: #include <sys/types.h> 
i #include <sys/stat.h> 
: #include «fcntl.h» 


ine open (const char *pathname, int flags); 
: int open (const char *pathname, int flags, mode_t mode); 


返回 值 : 











成 功 返 回 新 分 本 的 文件 描述 符 ， 出 错 返 回 -1 并 设 




















JL eee 
errno 





























Fi 





PRU EDU 


lopen KZA WRIN, 
样 声明 的 : 








Fi ANEX, 

















其 实在 C 代 但 









































的 标志 位 决定 ， 见 








pathname 人 参数 是 要 打开 或 创建 的 文件 名 ， 和 fopen 一 


对 路 径 。 flags 人 参数 有 一 系列 第 3 
来 ， 所 以 这 些 常数 的 宏 
必 选 项 : 以 下 三 个 常数 中 必须 





























。 0_RDONLY 只 读 打 开 


。 0_WRONLY 只 写 打 开 
e o RbwR 可 读 可 写 打 开 





以 下 可 选项 可 以 同时 指 























数值 可 供 选 择 ， 
































注意 open 函 


部 分 > — 





O_APPEND #7NIBIN. A 





) 的 Man 














窗 盖 原来 的 内 容 。 








o CREAT Æ IEX 
的 访问 权限 。 








o_ExcL 如 果 同 时 于 

















果 文 件 已 有 内 容 ， 


件 不 存在 则 创建 


Py 
EXE J 0. CREAT 




















它 。 使 用 此 选 














FÉ, pathname PH] 








下 面 的 六 








F 细 说 明 。 
以 是 相对 路 径 也 可 以 是 绝 














定 0 个 或 多 个 ， 和 必 选 项 按 位 或 起 来 作为 flags 参 
书 选 项 可 参考 open (2 


Page : 








可 以 同时 选择 多 个 常数 用 按 位 或 运算 符 
定义 都 以 o 开头 ， 表示 or。 


中 定 一 个 ， 且 仅 允 许 指 定 一 个 。 

















连接 起 


数 。 可 选项 有 很 多 ， 这 





























项 时 需要 提供 第 三 








s PACH 





已 存在 ， 则 出 错 





























o_TRUNC 如 果 文 


件 











(Truncate) 为 0 字 市 。 














设备 文件 ， 


O_NONBLOCK Xj] 


阻塞 VO 在 下 一 节 详细 讲解 。 
数 与 C 标 准 |/O 库 的 fopen FX] 





函数 有 些 细微 的 区 别 : 


个 参数 noge ， 表 示 该 文件 


返回 。 


这 次 打开 文件 所 写 的 数据 附加 到 文件 的 末 





尾 而 不 





























已 存在 ， 并 且 以 只 写 或 可 读 可 写 方式 打开 ， 则 将 其 长 度 表 


以 o_NoNBLocFK 方 式 打开 可 以 做 非 阻塞 VO (Nonblock 1/0) 


EB 





, dE 




















。 以 可 写 的 方式 fopen 一 个 文件 时 ， 如 果 文 件 不 存在 会 自动 创建 ， 而 open 一 个 文件 时 必须 明 
确 指定 o_cREgar 才 会 创建 文件 ， 否 则 文件 不 存在 就 出 错 返 回 。 


e. 以 w 或 w+ 方式 fopen 一 个 文件 时 ， 如 果 文 件 已 存在 就 截断 为 0 字 节 ， 而 open 一 个 文件 时 必须 
明确 指定 o_rRuNc 才 会 截断 文件 ， 否 则 直接 在 原来 的 数据 上 改写 。 


第 三 个 参数 moae 指 定 文 件 权 限 ， 可 以 用 八进制 数 表 示 ， 比 如 0644 表 示 -rw-r--r--， 也 可 以 
用 s_TRUsR、 s_rwusR 等 宏 定 义 按 位 或 起 来 表示 ， 详 见 open (2) 的 Man Page。 要 注意 的 是 ， 文 件 
权限 由 open 的 mode 参 数 和 当前 进程 的 umask 掩 人 码 则 E [n] RAE. 


补充 说 明 一 下 Shell 的 umask 命 令 。 Shell 进 程 的 umask 掩 码 可 以 用 umask 命 令 查 看 : 


































































































































































































: $ umask 
: 0022 




















用 touch 命 令 创建 一 个 文件 时 ， 创建 权限 是 0666， 而 touch 进 井 程 继承 了 Shell 进 HFE H Jumask #4, 
所 以 最 终 的 文件 权限 是 0666&~022=0644。 




















| $ touch file123 
p ls =l filelz23 
: -rw-r--r-- 1 akaedu akaedu 0 2009-03-08 15:07 file123 





























同样 道理 ， 用 scc 编 译 生成 一 个 可 执行 文件 时 ， 创 建 权限 是 0777， 而 最 终 的 文件 权限 
是 0777&~022=0755。 

















: $ gcc main.c 
$ la =l aout 
i -rwxr-xr-x 1 akaedu akaedu 6483 2009-03-08 15:07 a.out 




















FATA El AE umask TERME BC JAAR, 352. n touch Migec fil) EOE AAS ANE DY 
该 是 0666 和 0777 呢 ? 我们 可 以 把 Shell 进 程 的 umasx 改 成 0， 再 重复 上 述 实验 : 





























umask 0 

touch file123 

rm filel23 a.out 

touch file123 

Ag =I filel23 

; -rw-rw-rw- 1 akaedu akaedu 0 2009-03-08 15:09 file123 
: $ gcc main.c 

pS le =l a. out 

i -rWXrwxrwx 1 akaedu akaedu 6483 2009-03-08 15:09 a.out 


X rur 1 















































现在 我 们 自己 写 个 程序 ， 在 其 I 调 用 open ("some£file", O WRONLY|O CREAT, 0664) ;创建 文 









































: $ umask 022 

PS o/a ott 

:$ ls -1 somefile 

LW 1 akaedu akaedu 6483 2009-03-08 15:11 somefile 











不 出 所 料 ， 文 件 somefile 的 权限 是 0664&~022=0644。 有 几 个 问题 现在 我 没有 解释 : 为 什么 
被 Shell 局 动 的 进程 可 以 继承 Shell 进 程 的 umask 拓 人 码 ? 为 什么 umask 命 令 可 以 读 写 Shell 进 程 
Humas EN? 这些 问 题 将 在 第 1 节 “引言 ?解释 。 


close 国 数 关闭 一 个 已 打开 的 文件 : 
































} 





| #include <unistd.h> 


' int close(int fd); 











: 返回 值 : 成 功 返 回 0， 出 错 返 回 -1 并 设置 srrno 





















































参数 fa 是 要 关闭 的 文件 描述 符 。 需 要 说 明 的 是 ， 当 一 个 进程 终止 时 ， 内 核对 该 进程 所 有 尚未 关 
团 的 文件 描述 符 调用 close 关 闭 ， 所 以 即使 用 户 程序 不 调用 close， 在 终止 时 内 核 也 会 自动 关闭 
它 打开 的 所 有 文件 。 但 是 对 于 一 个 长 年 累 月 运行 的 程序 (比如 网 络 服务 器 ) ， 打 开 的 文件 描述 
符 一 定 要 记得 关闭 ， 否 则 随 着 打开 的 文件 越 来 越 多 ， 会 占用 大 量 文件 描述 符 和 系统 资源 。 


由 open 返 回 的 文件 描述 符 一 定 是 该 进程 尚未 使 用 的 最 小 描述 符 。 由 于 程序 启动 时 自动 打开 文件 
描述 符 0、1、2， 因 此 第 一 次 调用 open 打 开 文 件 通常 会 返回 描述 符 3 ， 再 调用 open 就 会 返回 4。 可 
以 利用 这 一 点 在 标准 输入 、 标 准 输出 或 标准 错误 输出 上 打开 一 个 新 文件 ， 实 现 重 定 疝 的 功能 。 

例如 ， 首 先 调用 close 关 闭 文 件 描述 符 1， 然 后 调用 open 打 开 一 个 常规 文件 ， 则 一 定 会 返回 文件 
描述 符 1， 这 时 候 标准 输出 就 不 再 是 终端 ， 而 是 一 个 常规 文件 了 ， 再 调用 printf 就 不 会 打印 到 屏 
莫 上 ， 而 是 写 到 这 个 文件 中 了 。 后 面 要 讲 的 aupz 天 数 提供 了 另外 一 种 办 法 在 指定 的 文件 描述 符 
EAHA 


习题 


1、 在 系统 头 文件 中 查找 f1ags 和 mode 参 数 用 到 的 这 些 宏 定义 的 值 是 多 少 。 把 这 些 宏 定义 按 位 或 
起 来 是 什么 效果 ?为 什么 必 选 项 只 能 选 一 个 而 可 选项 可 以 选 多 个 ? 















































































































































































































































































































































2、 请 按照 下 述 要 求 分 别 写 出 相应 的 open 调 用 。 


° 打开 文件 /home/akae.txt H FERE, 以 追加 方式 打开 




















. 打开 文件 /home/akae.txt 用 于 写 操作 ， 如 果 该 文件 不 存在 则 创建 它 
© 打开 文件 /homeyakae.txt 用 于 写 操 作 ， 如 果 该 文件 已 存在 则 截断 为 0 字 节 ， 如 果 该 文件 不 



















































































存在 则 创建 它 
。 打 开 文件 /home/akae.txt 用 于 写 操 作 ， 如 果 该 文件 已 存在 则 报错 退出 ， 如 果 该 文件 不 存在 
则 创建 它 


Cees a) fit 


2. C 标 准 VO 库 函数 与 Unbuffered 4. read/write 
l/O FR aX 





4. read/write 
第 28 & 文件 与 VO 

















read 哨 数 从 打开 的 设备 或 文件 中 读 取 数据 。 








| #include <unistd.h> 


i ssize_ t read(int fd, void P Size t count); NP S , 
Pow DP A 出 错 返 回 -1 并 设置 errno， 如 果 在 调 read 之 前 已 到 达 文 
: 件 末 尾 ， 则 这 次 reaq 返 回 0 







































































参数 count 是 请 求 读 取 的 字 市 数 ， 读 上 来 的 数据 保存 在 缓冲 区 buf 中 ， 同 时 文件 的 当前 读 写 位 置 
各 后 移 。 注 意 这 个 读 写 位 置 和 使 用 C 标 准 l/O 库 时 的 读 写 位 置 有 可 外 ER 同 ， 这 个 读 写 位 置 是 记 在 
内 核 中 的 ， 而 使 用 C 标 准 I/O 库 时 的 读 写 位 置 是 用 户 空间 1/O 绥 冲 区 ' 的 位 置 。 比如 用 fgetc 读 一 
个 字 节 ，fgetc 有 可 能 从 内 核 中 预 读 1024 个 字 节 到 JVO 缓 冲 区 中 ， 再 返回 第 一 个 字 节 ， 这 时 该 文 
件 在 内核 ' 记 录 的 读 写 位 置 是 1024， 而 在 FILE 结 构 体 中 记录 的 读 写 位 置 是 1。 注 意 返 回 值 类 型 
是 ssize 表示 有 符号 的 size_ t, 这 样 既 可 以 返回 正 的 字 节 数 、0 (表示 到 达 文 件 末尾 ) 也 可 
以 返回 负 Fit (表示 出 错 ) 。 read] 数 返回 时 ， 返 回 值 说 明了 buf 中 前 多 少 个 字 节 是 刚 读 上 来 
的 。 有 些 情况 下 ， 实 际 读 到 的 字 节 数 (返回 值 ) 会 小 于 请 求 读 的 字 节 数 count ， 例 如 : 
















































































































































































































































































e 读 常 规 文件 时 ， 在 读 到 count 个 字 节 之 前 已 到 达 文 件 末尾 。 例 如 ， 距 文件 末尾 还 有 30 个 字 
节 而 请 求 读 100 个 字 FT, Wreaaik 回 30 , 下 次 reag; 年 返回 0。 


。 从 终端 设备 读 ， 通 常 以 行为 单位 ， 读 到 换行 符 就 返回 了 。 


e 从 网 络 读 ， 根 据 不 同 的 传输 层 协议 和 内 核 缓 存 机 制 ， 返回 值 可 能 小 于 请 求 的 字 节 数 ， 后 
面 socket 编 程 部 分 会 详细 讲解 。 


write 峭 数 疝 打开 的 设备 或 文件 中 写 数据 。 


: #include <unistd.h> 
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| ssize_ t write(int COMBE VOE Jour» Sabe E cxx) 5 

















: 返回 值 : EDERE AHR 出 错 返 回 -1 并 设置 errno 











写 常规 文件 时 ，write 的 返回 值 通常 等 于 请 求 写 的 字 节 数 count ， 而 向 终端 设备 或 网 络 写 则 不 一 
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EAT C PRE ARS HERI, AREE, reaa—kEÉ AB BRAVA TAKE]. Manteo 
网 络 读 则 不 一 定 ， 如 果 从 终端 输入 的 数据 没有 换行 符 ， 调 用 reaa 读 终端 设备 就 会 阻塞 ， 如 果 网 
络 上 没有 接收 到 数据 包 ， 调 用 reaa 从 网 络 读 就 会 阻塞 ， 至 于 会 阻塞 多 长 时 间 也 是 不 确定 的 ， 如 
n ee 大 就 一 直 阻 塞 在 那里 。 同 样 ， 写 常规 文件 是 不 会 阻塞 的 ， 而 向 终端 设备 或 网 


现在 明确 一 下 阻塞 (Block) 这 个 概念 。 当 进程 调用 个 阻塞 的 系统 图 数 时 ， 该 进程 被 置 于 睡眠 
(Sleep) 状态 ， 这 时 内 核 调 度 其 它 进 程 运行 ， 直 到 该 进程 等 待 的 事件 发 生 了 (比如 网 络 上 接收 
到 数据 包 ， 或 者 调用 sieep 指 定 的 睡眠 时 间 到 了 ) EFAA n 续 运 行 。 与 睡眠 状态 相对 的 是 运 
ÍT (Running) 状态 ， 在 Linux 内 核 中 ， 处 于 运行 状态 的 进程 分 为 两 种 情况 : 




















































































































































































































































































































正在 被 调度 执行 。CPU 处 于 该 进程 的 上 下 文 环境 中 ， 程序 计数 天 (eip) 里 保存 着 该 进程 
的 指令 地 址 ， 通 用 寄存 器 里 保存 着 该 进程 运算 ; 过 程 的 中 间 结果 ， 正 在 执行 该 进程 的 指令 ， 
正在 读 写 该 进程 的 地 址 空间 。 













































































































































































。 就 结 状 态 。 该 进程 不 需要 等 待 什么 事件 发 生 ， 随 时 都 可 以 执行 ， 但 CPU 和 暂时 还 在 执行 男 一 
个 进程 ， 所 以 该 进程 在 一 个 就 绪 队 列 中 等 待 被 内 核 调 度 。 系 统 中 可 能 同时 有 多 个 就 绪 的 进 
程 ， 那 么 访 调 度 谁 执行 呢 ? 内 核 的 调度 算法 是 基于 优先 级 和 时 间 片 的 ， 而 且 会 根据 每 个 进 
程 的 运行 情况 动态 调整 它 的 优先 级 和 时 间 片 ， 让 每 个 进程 都 能 比较 公平 地 得 到 机 会 执行， 
同时 要 兼顾 用 户 体验 ， 不 能 让 和 用 户 交互 的 进程 响应 太 慢 。 


下 面 这 个 小 程序 从 终端 读数 据 再 写 回 终端 。 






















































































































































































例 28.2. 阻塞 读 终 端 


i #include <unistd.h> 
: #include <stdlib.h> 


p mE main (void) 
i { 
: GE lox elk Opl p 
Lge. Tap 
n = read(STDIN_FILENO, buf, 10); 
aie dm << d» 4 
perror("read STDIN FILENO"); 
exit(1); 


} 
write (STDOUT_FILENO, buf, n); 
return 0; 








执行 结果 如 下 : 














| bash: d: command not found 

















一 次 执行 a.out 的 结果 很 正常 ， 而 第 二 次 执行 的 过 程 有 点 特殊 ， 现 在 分 析 一 下 : 
































1. Shell 进 程 创建 a.out 进程 ，a.out 进 程 开 始 执 行 ， 而 Shell 进 程 睡眠 等 得 a.out 进 程 退出 。 












































2. a.out 调 用 read 时 睡眠 等 待 ， 直到 终端 设备 输入 了 换行 符 才 从 read 返 回 ，read 只 读 走 10 个 
字符 ， 剩 下 的 字符 仍然 保存 在 内 核 的 终端 设备 输入 绥 冲 区 中 。 

































































3. a.out 进 程 打 印 并 退出 ， 这 时 Shell 进 程 恢复 运行 ，Shell 继 续 从 终端 读 取 用 户 输入 的 命令 ， 
于 是 读 走 了 终端 设备 输入 绥 冲 区 中 剩 下 的 字符 d 和 换行 符 ， 把 它 当 成 一 条 命令 解释 执行 ， 
结果 发 现 执行 不 了 ， 没 有 d 这 个 命令 。 
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如 果 在 open 一 个 设备 时 指定 了 o_NoNBrLocK 标 志 ，read/write 就 不 会 阻塞 。 以 read 为 例 ， 如 果 设 备 
暂时 没有 数据 可 读 就 返回 -1， 同 时 置 errno 为 EwouLDBLOCK (或 者 EAGAIN， 这 两 个 宏 定义 的 值 相 
ED ， 表 示 本 来 应 该 阻塞 在 这 里 (would block ， 虚 拟 语气 ) ， 事实 上 并 没有 阻塞 而 是 直接 返回 
音 误 ， 调 用 者 应 该 试 着 再 读 一 次 (again) 。 这 种 行为 方式 和 未 为 轮 询 (Poll) ， 调 用 者 只 是 查询 

， 而 不 是 阻塞 在 这 里 死 等 ， 这 样 可 以 同时 监视 多 个 设备 : 
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3 非 阻 塞 read (设备 1) ; 

ie (EA BEI 

ACh FEIN HR ; 

非 阻塞 read (设备 2) ; 

: if (设备 2 有 数据 到 达 ) 

处 理 数据 ; 
如 果 read (设备 1) 是 阻塞 的 ， ,那么 公 要 设备 1 没有 数据 到 达 束 会 ELEH 2E EE 6 1H reaa YA H] E, 
即使 设备 2 有 数据 到 达 也 不 能 处 理 ， 使 用 非 阻 塞 VO 就 可 以 避免 设备 2 得 不 到 及 时 处 理 。 
FEVR ANRA, 如 果 所 有 设备 都 一 直 没 有 数据 到 达 ， 调 用 者 需要 反复 查询 做 无 用 功 ， 如 

果 阻 塞 在 那里 ， 操 作 系统 可 以 调度 别 的 进程 执行 ， 就 不 会 做 无 用 功 了 。 在 使 用 非 阻塞 VO 时 ， 通 

党 不 会 在 一 个 ae e — ANFWA (这 称 为 Tight Loop) ， 而 是 每 延迟 等 待 一 会 儿 来 查 
询 一 下 ， 以 免 做 太 多 无 用 功 ， 在 延迟 等 待 的 时 候 可 以 调度 其 它 进 程 执行 。 

m" c TEN 0009 

: dERH2Ereaa (设备 1) ; 

: Le ( 设 各 1 有数 所 到 这 

| 处 理 数据 ; 

| 

| £ (设备 2 有 数据 到 达 ) 

| 处 理 数据 ; 

| sleep Ga) 6 

a 
这 样 做 的 问题 是 ， 设 备 1 有 数据 到 达 时 可 能 不 能 及 时 处 理 ， 最 长 需 延 迟 n 秒 才能 处 理 ， 而 且 反 复 
查询 还 是 做 了 很 多 无 用 功 。 以 后 要 驴 习 的 sc1ect (2 ) 明 数 可 以 阻塞 地 同时 监视 多 个 设备 ， 还 可 以 
设 定 阻塞 等 待 的 超时 时 间 ， 从 而 圆满 地 解决 了 这 个 问题 。 
以 下 是 一 个 非 阻 塞 VO 的 例子 。 目 前 我 们 学 过 的 可 能 引起 阻塞 的 设备 只 有 终端 ， 所 以 我 们 用 终端 
来 做 这 个 实验 。 程 序 开 始 执行 时 在 0、1、2 文 件 描述 符 上 自动 打开 的 文件 就 是 终端 ， 但 是 没 
有 o_NoNBLoCK 标 志 。 所 以 就 像 例 28.2“ 咀 赛 读 终端 一样， 读 标准 输入 是 阻塞 的 。 我 们 可 以 重新 
打开 一 遍 设 备 文件 /dev/tty (表示 当前 终端 ) ， 在 打开 时 指定 o_owsLock 标 志 。 























fri 28.3. 非 阻塞 读 终端 


i #include 
i #include 
; #include 
i ne Trice 
! #include 


<unistd.h> 
Sie CNEL s > 
<errno.h> 
<string.h> 
<stdlib.h> 


: #define MSG TRY "try again\n" 


: int main 


1 


(void) 


ime lote [| 450) s 


ine sel, nl 
fd = open("/dev/tty", O_RDONLY|O_NONBLOCK) ; 
if (fd<0O) { 
perror("open /dev/tty"); 
esac, (AL) ¢ 
: } 
! tryagain: 
: i e read (CA logit, i1@)p 
ase (i < (y 4 
if (errno == EAGAIN) { 


sleep(1); 

: write(STDOUT FILENO, MSG TRY, 
"strlen(MSG TRY) 
E goto tryagain; 

Jj 

perror("read /dev/tty"); 
exit (1); 


} 

write(STDOUT_FILENO, buf, n); 
close (fd); 

return 0; 









































tr 
td 
































以 下 是 用 非 阻塞 VO 实 现 等 待 超时 的 例子 。 既 保证 了 超时 退出 的 逻辑 又 保证 了 有 数据 到 达 时 处 理 
延迟 较 小 。 




















例 28.4. 非 阻塞 读 终端 和 等 竺 超时 


: #include <unistd.h> 
: #include <fcntl.h> 
: #include <errno.h> 
: #include <string.h> 
i #include <stdlib.h> 


: #define MSG TRY "try again\n" 
: #define MSG TIMEOUT "timeout\n" 


: int main(void) 
Pd 
: Gineue lobe [L4.(0)]] P 
aug El; ia, ap 
fd = open("/dev/tty", O RDONLY|O NONBLOCK); 


if (fd<0) { 
perror ("open /dev/tty"); 
exit (1); 

} 


see ((abesxUg sbe 5p aar 4 
n — read(fd, buf, 10); 
if (n>=0) 
break; 
if (errno!=EAGAIN) { 
perror("read /dev/tty"); 
exit (1); 
} 
sleep (1); 
D write(STDOUT FILENO, MSG TRY, 
: strlen (MSG TRY) ); 
| } 
if (i==5) 
; write(STDOUT FILENO, MSG TIMEOUT, 
: strlen (MSG, TIMEOUT)); 
: else 





write(STDOUT FILENO, buf, n); 
close (fd); 
return 0; 


上 一 页 下 一 页 


3. open/close 5. lseek 





5. lseek 
.上 [二 页 第 28 章 文件 与 VO 下 三 页 


5. Iseek 


























每 个 打开 的 文件 都 记录 着 当前 读 写 位 置 ， 打 开 文 件 时 读 写 位 置 是 0， 表 示 文 件 开 头 ， 通 销 读 写 多 
少 个 字 节 就 会 将 读 写 位 置 往 后 移 多 少 个 字 节 。 但 是 有 一 个 例外 ， 如 果 以 o_apPzNp 方 式 打开 ， 
次 写 操作 都 会 在 文件 末尾 追加 数据 ， 然 后 将 读 写 位 置 移 到 新 的 文件 末尾 。1lseek 和 标准 VO 库 

的 fseek 困 数 类 似 ， 可 以 移动 当前 读 写 位 置 (或 者 叫 偏 移 量 ) 。 












































: #include <sys/types.h> 
: #include <unistd.h> 


: off t lseek (int fd, off_t offset, int whence); 











参数 offset flwhencell E N fseek KAKEM. AAW — 71 BUE T EIF « 
fltseexk— TÉ, WE EAEI RE, AA POSHAOCUER] PARE ERY EET CPF, H 
则 空洞 的 部 分 读 出 来 都 是 0。 


和 若 1seek 成 功 执行 ， 则 返回 新 的 偏 移 量 ， 因 此 可 用 以 下 方法 确定 一 个 打开 文件 的 当前 偏 移 量 : 



















































































(Off 七 currpos; 
: currpos = lseek(fd, 0, SEEK_CUR); 

















这 种 方法 也 可 用 来 确定 文件 或 设备 是 否 可 以 设置 偏 移 量 ， 常 规 文 件 都 可 以 设置 偏 移 量 ， 而 设备 
一 般 是 不 可 以 设置 偏 移 量 的 。 如 果 设 备 不 支持 1seek， 则 1seek 返 回 -1 ， 并 将 errno 设 置 
为 EsPIPE。 注意 fseek 和 1seek 在 返回 值 上 有 细微 的 差别 ， fseek 成 功 时 返回 0 失败 时 返回 -1 , EA 
返回 当前 偶 移 量 需 调用 ftell ， 而 1seek 成 功 时 返回 当前 偏 移 量 失败 时 返回 -1。 






















































































Rossi ie Pon 
4. read/write 起 始 页 6. fcntl 


6. fcntl 
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6. fcntl 


先前 我 们 以 reaa 终 病 设 备 为 例 介 绍 了 非 阻塞 |/O ， 为 什么 我 们 不 直接 对 sTDIN_FILENo 做 非 阻 
塞 read ， 而 要 重新 open 一 ifi /dev/tty WE ? AA STDIN FILENO 在 程序 启动 时 已 经 AA AFT IFS , 而 
我 们 需要 在 调用 open 时 指定 o_NoNBLocK 标 志 。 这 里 介绍 另外 一 种 办 法 ， 可 以 用 scntl 函数 改变 一 
个 已 打开 的 文件 的 属性 ， 可 以 重新 设置 读 、 写 、 追 加 、 非 阻塞 等 标志 (这些 标 志 称 为 File Status 
Flag) ， 而 不 必 重 新 open 文 件 。 















































































































































: #include <unistd.h> 
rine ude rene 


‘int font (int fd, int cmd); 
p aoe ened ne sec, ale em Lone Gus) 
apis CINE IL (atium sel, ne (eel, hex 3l exe lel) E 
































这 个 函数 和 open 一 样 ， 也 是 用 可 变 参数 实现 的 ， 可 变 参 数 的 类 型 和 个 数 取决 于 前 面 的 cma 参 数 。 
下 面 的 例子 使 用 F_cETFL 和 EF_sETFL 这 oe 命令 改变 sTDIN_FILENO 的 属性 ， 加 
上 o_NoNBLocK 选 项 ， 实 现 和 例 28.3“ 非 阻塞 读 终 端 " 同 样 的 功能 。 





















































例 28.5. 用 fcntl 改 变 File Status Flag 


: #include <unistd.h> 
: #include <fcntl.h> 
: #include <errno.h> 
: #include <string.h> 
i #include <stdlib.h> 





: #define MSG TRY "try again\n" 


ITE main(void) 

E 

| char buf[10]; 

amc Is 

int flags; 

flags = fcntl(STDIN FILENO, F GETFL); 

flags |= O_NONBLOCK; 

if (fcntl(STDIN FILENO, F SETFL, flags) == -1) 


Perron (M Een p 
exit (1); 
1 } 
i tryagain: 
n = read(STDIN_FILENO, buf, 10); 
ase (ia «€ ©) A 
if (errno == EAGAIN) { 
sleep(1); 
P write(STDOUT FILENO, MSG TRY, 
: strlen(MSG TRY)); 
| goto tryagain; 
} 
perror("read stdin"); 
ex (AL) 5 


} 
write(STDOUT_FILENO, buf, n); 
return 0; 




















以 下 程序 通过 命 
符 上 打开 文件 ， 


个 参 数 指定 一 











令 行 的 第 




















: #include 
: #include 
: #include 
i #include 


<sys/types.h> 
«fcntl.h» 
<stdio.h> 
<stdlib.h> 


: int main(int argc, 











同时 利用 Shell 的 重 定 向 功能 在 该 描述 








个 文件 摘 述 符 ， 


然后 用 fcnt1 的 F_GEgTFL 命 令 取出 File Status Flag 并 打印 。 


char *argv[]) 


Pd 

i J Wells 

alse "(eae Ws 29) 1 

: fputs("usage: a.out <descriptor#>\n", stderr); 
: exit (1); 

i } 

: if (val = font l(atoriargvy ll), P Onn)) < 0) 4 
primei (Wiecinic ll Soe store incl Wem nea (ase Li. 1l) )-8 
: exit (1); 

i } 

switch(val & O_ACCMODE) { 

case O_RDONLY: 

: printf("read only"); 

break; 

: case O WRONLY: 

: rss initerts wisis ny 

| break; 

case O_RDWR: 

: printf("read write"); 

: break; 

: default: 

fputs("invalid access mode\n", stderr); 
: exit(1); 

1 } 

if (val & O_APPEND) 

: printf(", append"); 

: if (val & O_NONBLOCK) 

| printf(", nonblocking"); 

: Pulte chau eum 

return 0; 

:] 




















运行 该 程序 的 几 种 情况 解释 如 下 。 








tG o/a owe O < dev Ey 
"read only 





Shell 在 执行 a. out 了 时 将 它 的 标准 输入 重 定 问 到 /gev/tty， 并 且 是 只 读 的 。 argv[1] 是 0， 














文件 


摘 述 符 0 (也 就 是 标准 输入 ) 的 File Status Flag, DURS SUN 它 的 读 写 位 ， 结 果 








因此 取出 















































AL argv [0] Æ"./a.out" , argv[1] 是 "0" ; 


运行 时 并 不 知道 标准 输入 被 重 定 向 了 。 











e ./a.out 1 » temp.foo 
:$ cat temp.foo 
i write only 


是 o_RpoNLY。 注 意 ，Shell 的 重 定 向 语法 不 属于 程 请 











的 命令 行 参数 ， 
重 定向 由 Shell 解 释 ， 在 


这 个 命 行 只 有 两 个 参 
-—] 序 时 已 经 生效 ， 程 序 在 















































Shell 在 执行 a.out 时 ; 
符 1 的 File Status Flag ， 发 现 是 只 写 的 ， 
到 temp .foo 这 个 文件 























: $ ./a.out 2 2>>temp.foo 


秆 它 的 标准 输出 重 定向 到 文件 temp.foo， 并 且 是 只 写 的 。 程 序 取出 文件 
于 是 打印 write only， 但 是 打印 不 到 屏幕 上 而 是 打印 








描述 


























| write only, append | 


Shell 在 执行 a.out 时 将 它 的 标准 错误 输出 可 








取出 文件 描述 符 2 的 File Status 














EE 定向 到 文件 temp. foo， 并 且 是 只 写 和 追加 方式 。 程 序 











Flag, Ae HS ABT 


eua clubes S<stemp. 20° 
: read write 





Shell 在 执行 a.out 时 在 它 的 文人 














件 描述 符 5 的 File Status Flag, 








描述 符 5 上 打开 文件 temp.foeoe， 并 且 是 可 读 可 写 的 。 程 序 取出 文 





发 现 是 可 读 可 写 的 。 











我 们 看 到 一 种 新 的 Shell 重 定向 语法 ， 如 采 在 <、>、 


个 文件 描述 符 上 打开 文件 ， 例 如 2>>temp.foo 表 示 将 标准 错误 输出 重 定向 到 文件 temp.foo 并 且 以 
追加 方式 写 和 文件， 注意 2 和 >> 之 间 不 能 有 空格 ， 

















否则 2 就 被 解释 成 命令 行 参数 了 。 文 件 描述 符 














>>、<> 前 面 添 一 个 数字 ， 该 数字 就 表示 在 哪 












































数字 还 可 以 出 现在 重 定向 符号 右边 ， 例 如 : 














首先 将 某 个 命令 command 的 标 














准 输出 重 定向 到 /aev/null ， 然 后 将 该 命令 可 能 产生 的 错误 信息 



































【标准 错误 输出 ) 也 重 定 向 到 和 标准 输出 〈 用 &1 标 识 ) 相同 的 文件 ， 即 /aev/null， 如 下 图 有 


7N o 








. EE H La RET 


PN 
N 
Oo 
C3 
Lill 





/dev/null 设 备 文件 只 有 一 个 作 











时 屏幕 上 没有 任何 输出 ， 既 不 打印 正常 信息 也 不 打印 
在 Shell 脚 本 中 很 痢 见 。 注 意 ， 文 件 描 述 符 数 字 写 在 重 定 癌 符号 右边 需要 加 & 号 ， 否 则 就 被 解释 












































用 ， 往 它 里 面 写 任何 数据 都 被 直接 丢弃 。 因 此 保证 了 该 命令 执行 



























































印 错误 信息 ， 让 命令 安静 地 执行 ， 这 种 写法 
















































































成 文件 名 了 ，2>&1 其 中 的 > 左右 两 边 都 不 能 有 空格 。 


除了 F_cETFL 和 F_sETFL 命 令 之 外 ，fcnt1 还 有 很 多 命令 做 其 它 操 作 ， 例 如 设置 文件 记录 锁 等 。 可 









































以 通过 fcnt1 设 置 的 都 是 当前 进程 如 何 访 问 设备 或 文件 的 访问 控制 属性 ， 例 如 读 、 写 、 追 加 、 非 




















阻塞 、 加 锁 等 ， 但 并 不 设置 文件 或 设备 本 号 的 属性 






































区 分 这 两 个 函数 的 作用 。 


Je 
5. |seek 

































































， 例 如 文件 的 读 写 权限 、 串 口 波 特 率 等 。 下 











节 要 介绍 的 ioct1 通 数 用 于 设置 某 些 设备 本 身 的 属性 ， 例 如 串口 波 特 率 、 终 端 窗口 大 小 ， 注 意 











ER TA 
起 始 页 7. ioctl 


7. ioctl 
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7. ioctl 


ioct1 用 于 向 设备 发 控制 和 配置 命令 ， 有 些 命令 也 需要 读 写 一 些 数据 ， 但 这 些 数 据 是 不 能 
read/write IZ GM), 称 为 Out-of- band 数 据 。 也 就 是 说 ， read/write 读 写 的 数据 是 in-band 数 
据 ， 是 VO 操 作 的 主体 ， 而 ioct1 命 令 传送 的 是 控制 信息 ， 其 中 的 数据 是 辅助 的 数据 。 例 如 ， 在 日 
口 线 上 收发 数据 通过 reaa/write 操 作 ， 而 串口 的 波 特 率 、 校 验 位 、 停 止 位 通过 ioct1 设 

B, AID H2 结果 iB: 过 reaa 读 取 ， 而 A/D 转 换 的 精度 和 工作 频率 通过 ioct1 设 置 。 































































































OO 






















































































i #include «sys/ioctl.h» 


uve decti tnt, c, ime request, ma.) > 























d 是 某 个 设备 的 文件 描述 符 。 request Eioct HME, F WARS 数 取决 于 request, 通常 是 一 个 指向 


变量 或 结构 体 的 指针 。 符 出 错 则 返回 -1， 知 成 功 则 返回 其 他 值 ， 返 回信 也 是 取决 于 request。 


以 下 程序 使 用 frIocewINsz 命 令 获 得 终端 设备 的 窗口 大 小 。 


i #include <stdio.h> 
: #include <stdlib.h> 
i #include <unistd.h> 
ij inelude <sys/ ostiis 






































I 

























































































' int main (void) 


: { 

i struct winsize size; 

if (teatty (STDOUT HILENO) —— 0) 

: exit (1); 

: if (ioctl (STDOUT_FILENO, TIOCGWINSZ, &size)<0) { 
i perror ("ioctl TIOCGWINSZ error"); 

: exit (1); 

: } 

printf ("%d rows, $d columns\n", size.ws row, size.ws col); 
return 0; 

i} 


























i 


在 图 形 界 面 的 终端 里 多 次 改变 终端 窗口 的 大 小 并 运行 该 程序 ， 观 察 结果 。 


























8. mmap 
Sie 第 28 章 文件 与 VO Eo 


8. mmap 












































mmap H] 以 把 磁盘 文件 的 一 部 分 直接 映射 到 内 存 ， 这 样 文件 中 的 位 置 直 接 就 有 对 应 的 内 存 地 址 ， 
对 文件 的 读 写 可 以 直接 用 指针 来 做 而 不 需要 read/write 通 数 。 


















































| #include <sys/mman.h> 


void *mmap(void *addr, size_t len, int prot, int flag, int 
i filedes, (Oti B uci) D 
int munmap(void *addr, size t len); 





该 函数 各 参数 的 作用 图 示 如 下 : 





图 28.4. mmap 函数 








内 存 地 址 室 则 
an e 
i" 
i" 
len EN 
N 
返回 地 址 a \ 
N 
aw 





off len 


























如 果 aadr 参 数 为 Nurr ， 内 核 会 自己 在 进程 地 址 空间 中 选择 合适 的 地 址 建立 映射 。 如 果 aaadr 不 
是 wurz ， 则 给 内 核 一 个 提示 ， 应 该 从 什么 地 址 开始 映射 ， 内 核 会 选择 aaar 之 上 的 某 个 合适 的 地 
址 开始 映射 。 建 立 映 射 后 ， 真 正 的 映射 首 地 址 通过 返回 值 可 以 得 到 。1len 参 数 是 需要 映射 的 那 一 
部 分 文件 的 长 度 。off 参 数 是 从 文件 的 什么 位 置 开 始 映 射 ， 必 须 是 页 大 小 的 整数 倍 〈 在 32 位 体系 
统 结 构 上 通常 是 4K) o filedes 是 代表 该 文件 的 描述 符 。 


prot 参 数 有 四 种 取 值 : 
。 PROT_EXEC 表 示 映 射 的 这 一 段 可 执行 ， 例 如 映射 共享 库 


。 PROT_READ 表 示 映 射 的 这 一 段 可 读 








































































































































































































PROT WRITER BEAT RS 3c — Bn] 5j 

















。 PROT_NONE 表 示 映 射 的 这 一 段 不 可 访问 
flag 人 参数 有 很 多 种 取 值 ， 这 只 讲 两 种 ， 其 它 取 值 可 查看 mmap (2) 


。 MAP _ SHARED 多 个 进程 对 同一 个 文件 的 映射 是 共享 的 ， 一 个 进程 对 映射 的 内 存 做 了 修 
改 ， 另 一 个 进程 也 会 看 到 这 种 变化 。 


。MAP_PRIVATE 多 个 进程 对 同一 个 文件 的 映射 不 是 共享 的 ， 个 进程 对 映射 的 内 存 做 了 修 
改 ， 另 一 个 进程 并 不 会 看 到 这 种 变化 ， 也 不 会 真 的 写 到 文件 中 去 。 


如 果 mmap 成 功 则 返回 映射 首 地 址 ， 如 果 出 错 则 返回 常数 vap_FAILED。 当 进程 终止 时 ， 该 进程 的 
映射 内 存 会 自动 解除 ， 也 可 以 调用 munmap 解 除 映 射 。munmap 成 功 返 回 0， 出 错 返 回 -1。 


下 面 做 一 个 简单 的 实验 。 


















































































































































































































































































































































i$ vi hello 
: (编辑 该 文件 的 内 容 为 hello”) 
oe ee 

: 0000000 68 65 6c 6c 6f 0a 

| e il i o n 



































: 0000006 





















































现在 用 如 下 程序 操作 这 个 文件 (注意 ， 把 fa 关 掉 并 不 影响 该 文件 已 建立 的 映射 ， 仍 然 可 以 对 文 
件 进行 读 写 ) 。 




















: #include <stdlib.h> 
: #include <sys/mman.h> 
| ades: «iren engine 


"CHE main(void) 
R4 
: int *p; 
int fd = open("hello", O_RDWR); 
a (Gel «S @)) 4 

perror("open hello"); 

Gabe. (AL) 8 
} 
p = mmap(NULL, 6, PROT WRITE, MAP SHARED, fd, 0); 
if (p == MAP FAILED) { 

perror ("mmap"); 

esa (dE) e 


} 

close (fd); 

PRON —s O53 ORS 283) 
munmap (p, 6); 
return 0; 








然后 再 查看 这 个 文件 的 内 容 : 




















is OC SEs -re hallo 
0000000 33 32 31 30 6f 0a 
3 2 1 0 95 m 


0000006 




















请 读者 日 己 分 析 一 下 实验 结果 。 


mmap 函 数 的 底层 也 是 一 个 系统 调用 ， 在 执行 程序 时 经 常 要 用 到 这 个 系统 调用 来 映射 共享 库 到 该 
进程 的 地 址 空间 。 例 如 一 个 很 简单 的 hello world 程 序 : 
































































































































: #include <stdio.h> 


NE main (void) 


q 





printf("hello world\n"); 
return 0; 




































































用 strace 命 令 执行 该 程序 ， 跟 踩 该 程序 执行 过 程 中 用 到 的 所 有 系统 调用 的 参数 及 返回 值 : 




















| $ strace ./a.out 


aexcovou c oup [-/a- 00e]; I/57 38 vars M = 0 
: brk (0) = 0x804a00 
: access ("/etc/1ld.so.nohwcap", F_OK) = -] ENOENT (No such file 


: or directory) 
i mmap2 (NULL, LOZ, PROT_READ | PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, 
:-1, 0) = Oxb7fca000 


: access ("/etc/ld.so.preload", R OK) = -] ENOENT (No such file 
: or directory) 

: open("/etc/ld.so.cache", O_RDONLY) = 3 

; fstat64 (3, {st_mode=S_IFREG|0644, st_size=63628, ...}) = 0 

: mmap2 (NULL, 63628, PROT READ, MAP PRIVATE, 3, 0) = 0xb7fba000 

: close (3) = 0 
;access("/etc/1d.so.nohwcap", F OK) = -] ENOENT (No such file 


:or directory) 
|! open("/lib/tls/i686/cmov/libc.so.6", O RDONLY) = 3 


| eel 

A TEE LEV ENE ONON ON ON ONONONO ONS N ONS NOXIN O10 05 260a 17257 512) 
p= 151 

| fstat64(3, (st mode-S IFREG|0644, st size-1339816, ...)) = 0 


: mmap2 (NULL, 1349136, PROT READ|PROT EXEC, 

: MAP. PRIVATE|MAP DENYWRITE, 3, 0) = 0xb7e70000 

: mmap2 (0xb7f54000, 12288, PROT_ READ|PROT WRITE, 

: MAP. PRIVATE|MAP FIXED|MAP DENYWRITE, 3, 0x143) = Oxb7fb4000 
i mmap2 (0xb7f57000, 9744, PROT READ|PROT WRITE, 

: MAP. PRIVATE|MAP FIXED|MAP ANONYMOUS, -1, 0) = Oxb7£b7000 

‘ close (3) = 0 

: mmap2 (NULL, 4096, PROT READ|PROT WRITE, MAP PRIVATE|MAP ANONYMOUS, 
; -1, 0) = Oxb7e6£000 

: set thread area((entry number:-1 -> 6, base addr:0xb7e6f6b0, 
: limit:1048575, seg_32bit:1, contents:0, read_exec_only:0, 


|! limit in pages:1, seg_not_present:0, useable:1}) = 0 

i mprotect(0xb7fb4000, 4096, PROT READ) = © 

: munmap (Oxb7fba000, 63628) = 0 

: fstat64 (1, (st mode-S IFCHR|0620, st_rdev=makedev (136, 1), ...)) = 
:0 


: mmap2 (NULL, 4096, PROT_READ | PROT_WRITE, MAP_PRIVATE |MAP ANONYMOUS, 
: -1, 0) = Oxb7£c9000 

 wrrbech "hello world\n", 12hello world 

=) = 12 

: exit_group (0) = 

i Process 8572 detached 









































可 以 看 到 ， 执 行 这 个 程序 要 映射 共享 库 /liib/tls/i686/cmov/libc.soe.6 到 进程 地 址 空间 。 也 可 以 
看 到 , print f PRAM JE EU 实 是 调 用 write。 
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1. 引言 
本 章 主 要 解答 以 下 问题 : 


1. 文件 系统 在 内 核 中 是 如 何 实现 的 ? 如何 呈 现 给 用 户 一 个 树 状 的 目录 结构 ?如 何 处 理 用 户 的 
文件 和 目录 操作 请 求 ? 


2. 磁盘 是 一 种 顺序 的 存储 介质 ， 一 个 树 状 的 目录 结构 如 何 扯 成 一 条 线 存 到 磁盘 上 ， 怎样 设计 
文件 系统 的 存储 格式 使 访问 磁 检 的 效率 最 高 ?各 种 文件 和 目录 操作 在 磁盘 上 的 实际 效果 是 
什么 ? 











图 29.1. 文件 系统 的 表示 和 存储 
/ 


bin etc I e home <->. 100101000111101 .. 
akaedu 


我 们 首先 介绍 一 种 文件 系统 的 存储 格式 一 早期 Linux 广 泛 使 用 的 ext2 文 件 系统 。 现 在 Linux 最 常用 
的 ext3 文 件 系统 也 是 与 ext2 兼 容 的 ， 基 本 格式 是 一 致 的 ， 只 是 多 了 一 些 扩展 。 然 后 再 介绍 文件 系 
统 在 内 核 中 是 如 何 实现 的 。 


2. ext2 文 件 系统 
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2. ext2 文 件 系统 
1. 总 体 存 储 布局 


我 们 知道 ， 一 个 磁盘 可 以 划分 成 多 个 分 区 ， 每 个 分 区 必须 先 用 格式 化 工具 (例如 某 种 mkfs 命 
令 ) 格式 化 成 某 种 格式 的 文件 系统 ， 然 后 才能 存储 文件 ， 格 式 化 的 过 程 会 在 磁盘 上 写 一 些 管理 
存储 布局 的 信息 。 下 图 是 一 个 磁盘 分 区 格式 化 成 ext2 文 件 系统 后 的 存储 布局 。 


























































































































图 29.2. ext2 文 件 系 统 的 总 体 存储 布局 


wi Block Group 0 Block Group 1 Block Group n 
Block - 
Super Block inode inode 


文件 系统 中 存储 的 最 小 单位 是 块 (Block) ,一 个 块 究竟 多 大 是 在 格式 化 时 确定 的 ， 例 
如 mke2fs 的 -pb 选项 可 以 设 定 块 大 小 为 1024、2048 或 4096 字 节 。 而 上 图 中 启动 块 (Boot 
Block) 的 大 小 是 确定 的 ， 就 是 1KB， 启 动 块 是 由 PC 标准 规定 的 ， 用 来 存储 磁盘 分 区 信息 和 启动 
信息 ， 任 何 文件 系统 都 不 能 重用 启动 块 。 启动 块 之 后 才 是 ext2 文 件 系统 的 开始 ，ext2 文 件 系统 将 
整个 分 区 划 成 若干 个 同样 大 小 的 块 组 (Block Group) ， 每 个 块 组 都 由 以 下 部 分 组 成 。 


超级 块 (Super Block) 


描述 整个 分 区 的 文件 系统 信息 ， 例 如 块 大 小 、 文 件 系统 版 本 号 、 上 次 mount 的 时 间 等 等 。 
超级 块 在 每 个 块 组 的 开头 都 有 一 份 拷贝 。 


块 组 描述 符 表 (GDT，Group Descriptor Table) 


由 很 多 块 组 描述 符 组 成 ， 整 个 分 区 分 成 多 少 个 块 组 就 对 应 有 多 少 个 块 组 描述 符 。 每 个 块 组 
描述 符 (Group Descriptor) 三 储 一 个 类 组 的 描述 信 生 息 ， 例 如 在 这 个 块 组 中 从 哪里 开始 
是 inode 表 ， 从 哪里 开始 是 数据 块 ， 空 闲 的 inode 和 数据 块 还 有 多 少 个 等 等 。 和 超级 块 类 
似 ， 块 组 描述 Sec HUAN SLES 份 拷贝 ， 这 些 信息 是 非常 重要 的 ， 一 旦 超级 
块 意外 损坏 束 会 丢失 整个 分 区 的 数据 ， 一 日 日 块 组 描述 符 意 外 损坏 就 会 丢失 整个 块 组 的 数 
据 ， 因此 它们 都 有 多 从 ) 找 贝 。 通 常 内 核 只 用 到 第 0 个 块 组 中 的 拷贝 ， 当 执行 e2fscxk 检 查 文 
件 系 统一 致 性 时 ， 第 0 个 块 组 中 的 超级 块 和 块 组 描述 符 表 就 会 拷贝 到 其 己 块 组 ， 这 样 当 
第 0 个 块 组 的 开头 意外 损坏 时 就 可 以 用 其 它 拷贝 来 恢复 ， 从 而 减少 损失 。 


块 位 图 (Block Bitmap) 
一 个 块 组 中 的 块 是 这 样 利 用 的 : 数据 块 存储 所 有 文件 的 数据 ， 比 如 某 个 分 区 的 块 大 小 









































































































































































































































































































































































































































FEIO24 FT, FET ICE E2049 F 5, AB Am R= TORRE, BERS MRA T 
AST PR, 超级 块 、 块 组 描述 符 表 、 块 位 图 、inode 位 图 、inode 表 这 
儿 部 分 存储 该 块 组 的 描述 信息 。 那 么 如 何 知道 哪些 块 已 经 用 来 存储 文件 数据 或 其 它 描述 信 
上 县， 哪些 块 仍然 空闲 可 用 呢 ? 块 位 图 就 是 用 来 描述 整个 块 组 哪些 块 已 用 哪些 块 空 闲 的 ， 
它 本 身 占 一 个 块 ， 其 中 的 每 个 bit 代 表 本 块 组 中 的 一 个 块 ， 这 个 bit 为 1 表示 该 块 已 用 ， 这 
个 bit 为 0 表示 该 块 空 几 可 用 。 




































































































































































































































































为 什么 用 af 命 令 统 计 整 个 磁盘 的 已 用 空间 非常 快 呢 ?因为 只 需要 查看 每 个 块 组 的 块 位 图 即 
可 ， 而 不 需要 搜 遍 整个 分 区 。 相 反 ， 用 au 命令 查看 一 个 较 大 目录 的 已 用 空间 就 非常 慢 ， 因 
为 不 可 避免 地 要 搜 遍 整个 目录 的 所 有 文件 。 


与 此 相 联系 的 刀 个 问题 是 : 在 格式 化 一 个 分 区 时 究竟 会 划 出 多 少 个 块 组 呢 ， 主 要 的 限制 
ror ARE ode D cu OI. 可 以 用 -p 参 
数 指定 块 大 小 ， 现在 设 块 大 小 指定 为 b 字 那么 一 个 块 可 以 有 8b 个 bit， 这 样 大 小 的 一 个 
块 位 图 就 可 以 表示 8b 个 块 的 占用 情况 ， xb ARR e RT LET HR 如 果 整 个 分 区 

有 s 个 块 ， 那 么 就 可 以 有 s/(8b) 个 块 组 。 格 式 化 时 可 以 用 -g 参 数 指定 一 个 块 组 有 多 少 个 块 ， 

日 是 通常 不 需要 手动 指定 ，mke2fs 工 具 会 计算 出 最 优 的 数值 。 
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inode 位 图 (inode Bitmap) 
和 块 位 图 类 似 ， 本 里 占 一 个 块 ， 其 中 每 个 bit 表 示 一 个 inode 是 否 空间 可 用 。 
inode# (inode Table) 




















































































































我 们 知道 ， 一 个 文件 除了 数据 需要 存储 之 外 ， 一 些 描 述 信息 也 需要 存储 ， 例 如 文件 类 型 
(常规 、 目 录 、 符 号 链 接 等 ) ， 权限 ， 文 件 大 小 ， 创 建 /修改 /访问 时 间 等 ， 也 就 是 1s。 -1 命 
令 看 到 的 那些 信息 ， 这 些 信息 存在 inode ! 而 不 是 数据 块 中 。 每 个 文件 都 有 一 个 inode ,一 
个 块 组 中 的 所 有 inode 组 成 了 inode 表 。 


inode 表 占 多 少 个 块 在 格式 化 时 就 要 决定 并 写 入 块 组 描述 符 中 ，mke2fs 格 式 化 工具 的 默认 
策略 是 一 个 块 组 有 多 少 个 8KB 就 分 配 多 少 个 inode 。 由 于 数据 块 占 了 整个 块 组 的 绝 大 部 

分 ， 也 可 以 近似 认为 数据 块 有 多 少 个 8KB 就 分 配 多 少 个 inode ， 换 句 话说， 如果 平 均 每 个 
文件 的 大 小 是 8KB 当 分 区 存 满 的 时 候 inode 表 会 得 到 比较 充分 的 利用 ， 数 据 块 也 不 浪 

费 。 如 果 这 个 分 区 存 的 部 是 很 估 的 文件 (比如 电影 ) ， 则 数据 块 用 完 的 时 候 inode 会 有 一 
些 浪 颖 ， 如 果 这 个 分 区 存 的 都 是 很 小 的 文件 (比如 源 代码 ) ， 则 有 可 能 数据 块 还 没 用 
完 inode 就 已 经 用 完了 ， 数 据 块 可 能 有 很 大 的 浪费 。 如 果 用 户 在 格式 化 时 能 够 对 这 个 分 区 
以 后 要 存储 的 文件 大 小 做 一 个 预测 ， 也 可 以 用 mke2fs 的 -i 参数 手动 指定 每 多 少 个 字 市 分 配 


一 个 inode。 














































































































































































































































































































| oe 
























































数据 块 (Data Block) 
根据 不 同 的 文件 类 型 有 以 下 几 种 情况 
。 对 于 常规 文件 ， 文 件 的 数据 存储 在 数据 块 中 。 
。 对 于 目录 ， 该 目录 下 的 所 有 文件 名 和 目录 名 存 7 储 在 数据 只 中 注意 文件 名 保存 在 它 


所 在 目录 的 数据 块 中 ， 除 文件 名 之 外 ，1s -1 命令 看 到 的 其 它 信息 都 保存 在 该 文件 
的 inode 中 。 注 意 这 个 概念 : 目录 也 是 一 种 文件 ， 是 一 种 特殊 类 型 的 文件 。 












































































































































































































































。 对 于 符号 链接 ， 如 果 目 标 路 径 名 较 短 则 EL OE 以 便 更 快 地 碍 找 ， 如 果 目 
标 路 径 名 较 长 则 分 配 一 个 数据 块 来 保存 


。 设备 文件 、FIFO 和 socket 等 特殊 文件 没有 数据 块 ， 设 备 文件 的 主 设备 号 和 次 设备 号 
保存 在 inode 
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现在 做 几 个 小 实验 来 理解 这 些 概 念 。 例 如 在 home H»* Fis -1: 
ii 
total 32 


| drwxr-xr-x 114 akaedu akaedu 12288 2008-10-25 11:33 akaedu 
udrwxrczrocsx Laer ep 
2 root 


ftp 
root 


4096 2008-10-25 10:30 ftp 
16384 2008-07-04 05:58 lost+found 











为 什么 各 目录 的 大 小 都 是 4096 的 整数 倍 ? 因 为 这 个 分 区 的 块 大 小 是 4096， 目 录 的 大 小 总 是 交 TON 
块 的 整数 倍 。 为 什么 有 的 目录 大 有 的 目录 小 ? 因为 目录 的 数据 块 保存 着 它 下 边 所 有 文件 和 
的 名 字 ， 如 果 一 个 目录 的 文件 很 多 ， 一 个 块 装 不 下 这 么 多 文件 名 ， 就 可 能 分 配 更 

给 这 个 目录 。 再 比如 : 


































































































































































































































































































| Prw- 二 二 1 syslog adm ORZ0 0S SOS Zombie SOs console 

| crw- rw-rw- 1 root root 1L 5 2008-10-24 16:44 zero 
xconsole 文 件 的 类 型 是 p (表示 pipe) ; 是 一 个 FIFO 文 件 ， 后 面 会 讲 到 它 其 实 是 一 块 内 核 缓冲 区 
的 标识 ， 不 在 磁盘 上 保存 数据 ， 因 此 没有 数据 块 ， 文 件 大 小 是 0。zero 文 件 的 类 型 是 -， 表 示 字 
符 设备 文件 ， 它 代表 内 核 中 的 一 个 设备 驱动 程序 ， 也 没有 数据 块 ， 原 本 应 该 写 文件 大 小 的 地 方 
写 了 1，5 这 两 个 数字 ， 表 示 主 设备 号 和 次 设备 号 ， 访 问 该 文件 时 ， 内 核 根据 设备 号 找到 相应 的 
驱动 程序 。 再 比如 : 

ie aa | 

i$ ln -s ./hello halo 

S ls =i 

‘total 0 

| Irwxrwxrwx 1 akaedu akaedu 7 2008-10-25 15:04 halo -> ./hello 


WE 1 akaedu akaedu 0 2008-10-25 15:04 hello 















































































































































































































































































































































X Fne107E MAVEN, 7r 13080, FPS HR halotel, FHAA, AT A E? 
其 实 7 就 是 “./hello” 这 7 个 字符 ， 符号 链接 文件 就 保存 着 这 样 一 个 路 径 名 。 再 试 试 便 链 接 : 

nn 

:$ ls -1 

‘total 0 

i lrwxrwxrwx 1 akaedu akaedu 7 2008-10-25 15:08 halo -> ./hello 

i -rw-r--r-- 2 akaedu akaedu 0 2008-10-25 15:04 hello 

cq werd A akae akaecw O 2000-10-25 15504 melez 
hello2 和 hello 除 了 文件 名 不 一 样 之 外 ， 别 的 属性 都 一 模 一 样 ， 并 且 hello 的 属性 发 生 了 变化 ， 
第 二 栏 的 数字 原本 是 1， 现 在 变 成 2 了 。 从 根本 上 说 ， wise neuen des 文件 在 文件 系统 
的 两 个 名 字 ，1s _1 第 二 栏 的 数字 是 硬 链接 ; 数 ， 表 示 一 个 文件 在 文件 系统 中 有 儿 个 名 字 (这 些 名 
字 可 以 保存 在 不 同 目录 的 数据 块 中 ， 或 者 说 可 以 位 于 不 同 的 路 径 下 ) ， 硬 链接 数 也 保存 
在 inode o 既然 是 同一 个 文件 ， inode 当 然 只 有 一 个 ， 所 以 用 1s -1 看 它 门 的 属性 是 一 模 一 样 
的 ， 及 为 都 是 从 i 这 个 inode 里 读 出 来 的 。 再 研究 一 下 目录 的 便 链 接 数 : 

| 

: $ mkdir a/b 

pS Jg = el a 

i drwxr-xr-x 3 akaedu akaedu 4096 2008-10-25 16:15 a 

pS is =la a 

i total 20 


| drwxr-xr-x 
| drwxr-xr-x 
| drwxr-xr-x 


3 akaedu akaedu 4096 2008-10-25 16:15 . 
115 akaedu akaedu 12288 2008-10-25 16:14 
2 akaedu akaedu 4096 2008-10-25 16:15 5 


|: $ ls -la a/b 


| iom © 


: drwxr-xr-x 2 akaedu akaedu 4096 2008-10-25 16:15 . 
: drwxr-xr-x 3 akaedu akaedu 4096 2008-10-25 16:15 .. 














首先 创建 目录 a， 然 后 在 它 下 面 创建 子 目 录 a/p。 目 录 a 的 硬 链 接 数 是 3， 这 3 个 名 字 分 别 是 
录 下 的 a，a 目 录 下 的 .和 wb 目录 下 的 ..。 目 录 b 的 硬 链 接 数 是 2， 这 两 个 名 字 分 别 是 a 目录 下 







































































的 be 和 bp 目 录 下 的 .。 注 意 ， 目 录 的 硬 链 接 只 能 这 种 方式 创建 ， 用 ln 命令 可 以 创建 目录 的 符号 链 











接 ， 但 不 能 创建 目录 的 硬 链接 。 


2.2. 实例 剖析 









































如 果 要 格式 化 一 个 分 区 来 研究 文件 系统 格式 则 必须 有 一 个 空闲 的 磁盘 分 区 ， 为 了 方便 实验 ,我 






























































们 把 一 个 文件 当 作 分 区 来 格式 化 ， 然 后 分 析 这 个 文件 中 的 数据 来 印证 上 面 所 讲 的 要 点 。 首 先 创 






































建 一 个 1MB 的 文件 并 清 零 : 











: $ dd if=/dev/zero of=fs count=256 bs=4K 



















































































我 们 知道 cp 命令 可 以 把 一 个 文件 找 贝 成 男 一 个 文件 ， 而 aa 命 令 可 以 把 一 个 文件 的 一 部 分 找 贝 成 
另 一 个 文件 。 这 个 命令 的 作用 是 把 /aevyzero 文 件 开头 的 1IM (256x4K) 字 节 拷贝 成 文件 名 


为 fs 的 文件 。 刚 才 我 们 看 到 /aev/zeroe 是 一 个 特殊 的 设备 文件 ， 它 没有 磁盘 数据 块 ， 对 它 进 行 读 





























操作 传 给 设备 号 为 71，5 的 驱动 程序 。/qev/zero 这 个 文件 可 以 看 作 是 无 穷 大 的 ， 不管 从 哪 








里 开始 





























读 ， 读 出 来 的 都 是 字 节 0x00。 因 此 这 个 命令 拷贝 了 1M 个 0x00 到 fs 文件 。if 和 of 参数 表示 输入 文 














件 和 输出 文件 ，count 和 bs 参数 表示 撕 由 多 少 次 ， 每 次 找 多 少 字 市 。 


























做 好 之 后 对 文件 fs 进行 格式 化 ， 也 就 是 把 这 个 文件 的 数据 块 合 起 来 看 成 一 个 HIMB 的 磁盘 分 区 ， 




















在 这 个 分 区 上 再 划分 出 块 组 。 





: $ mke2fs fs 

: mke2£s 1.40.2 (12-Jul-2007) 

| fs is not a block special device. 

: Proceed anyway? (y,n) (输入 y 回 车 ) 
: Filesystem label= 

: OS type: Linux 

: Block size=1024 (log=0) 

: Fragment size-1024 (log=0) 

:128 inodes, 1024 blocks 

: 51 blocks (4.98%) reserved for the super user 
‘First data block=1 

: Maximum filesystem blocks=1048576 

: 1 block group 

: 8192 blocks per group, 8192 fragments per group 
: 128 inodes per group 





: Writing inode tables: done 
: Writing superblocks and filesystem accounting information: done 


| This filesystem will be automatically checked every 27 mounts or 
: 180 days, whichever comes first. Use tune2fs -c or -i to 
; override. 



























































格式 化 一 个 真正 的 分 区 应 该 指定 块 设备 文件 名 ， 例 如 /gev/sqal， 而 这 个 fs 是 常规 文件 而 不 是 块 





















































输入 y 回 车 完成 格式 化 。 























































































































以 查看 这 个 分 区 的 超级 块 和 块 组 描述 符 表 中 的 信息 : 
e 


elümpe2t ss IOMETE 
: Filesystem volume name: «none» 





























设备 文件 ，mke2fs 认 为 用 户 有 可 能 是 误 操 作 了 ， 所 以 给 出 提示 ， 要 求 确认 是 否 真 的 要 格式 化 ， 





现在 fs 的 大 小 仍然 是 1MB， 但 不 再 是 全 0 了， 其 中 已 经 有 了 块 组 和 描述 信息 。 用 aumpe2fs 工 具 可 


: Last mounted on: 
: Filesystem UUID: 


|: Filesystem magic number: 


: Filesystem revision #: 
: Filesystem features: 

! sparse super 

: Filesystem flags: 

: Default mount options: 
' Filesystem state: 

| Errors behavior: 

: Filesystem OS type: 

: Inode count: 

P Jedlexels GOUDREE 

: Reserved block count: 
: Free blocks: 

| Free inodes: 

es el ke: 

"Block size: 

: Fragment size: 

: Reserved GDT blocks: 

' Blocks per group: 

: Fragments per group: 

: Inodes per group: 

; Inode blocks per group: 
| Filesystem created: 





: Last mount time: 


| Last write time: 


‘Mount count: 


‘Maximum mount count: 





i Last checked: 


: Check interval: 

: Next check after: 

: Reserved blocks uid: 

: Reserved blocks gid: 

' First inode: 

; Inode size: 

: Default directory hash: 
: Directory Hash Seed: 


| Group 0: (Blocks 1-1023) 


Primary superblock at 1, 


«not available» 
8e1f3b7a-4d1f-41dc-8928-526e43p2fd74 
OxEF53 

1 (dynamic) 

resize inode dir index filetype 





Signed directory hash 
(none) 

clean 

Continue 


1024 

1024 

3 

8192 

8192 

128 

16 

Sin Dee 16 GSS BOO? 
n/a 

Sin Wee 16 dAsSosss) 2BOOy 
0 

30 

Sun Dec 16 14:56:59 2007 
15552000 (6 months) 

imal Jwa LS Iss esae 9210108) 
0 (user root) 

0 (group root) 

iL al 

128 

tea 

6d0e58bd-b9db-41ae- 92b3-4563a02a5981 








Group descriptors at 2-2 


Reserved GDT blocks at 3-5 


Block bitmap at 6 (+5), 


Inode bitmap at 7 (+6) 


Inode table at 8-23 (+7) 
986 free blocks, 117 free inodes, 2 directories 


Imsceslosess mong 
Free inodes: 12-128 


| 128 inodes per group, 8 inodes per block, so: 16 blocks for inode 
: table 






























































根据 上 面 讲 过 的 知识 简单 计算 一 下 ， 块 大 小 是 1024 字 节 ，1MB 的 分 区 共有 1024 个 块 ， 第 0 个 块 



































是 启动 块 ， 局 动 块 之 后 才 算 ext2 文 件 系统 的 开始 ， 因 此 Group 0 占据 第 1 个 到 第 1023 个 块 ， 
共 1023 个 块 。 块 位 图 占 一 个 块 ， 共 有 1024x8=8192 个 bit， 足 够 表示 这 1023 个 块 了 ， 因 此 只 要 
个 块 组 就 够 了 。 上 默认 是 每 8KB 分 配 一 个 inode ， 因 此 1MB 的 分 区 对 应 128 个 inode ， 这 些 数据 都 































































































和 aumpe2fs 的 输出 吻合 。 
用 常规 文件 制作 而 成 的 文件 系统 也 可 以 像 磁 表 分 区 一 样 nount 到 某 个 目录 ， 例 如 : 
: $ sudo mount -o loop fs /mnt 
:$ cd /mnt/ 
|: $ ls =la 
EO ak 17 
: drwxr-xr-x 3 akaedu akaedu 1024 2008-10-25 12:20 
ln Ail POOL root 4096 2008-08-18 08:54 .. 
; drwx------ 2 TOOL root 12288 2008-10-25 12:20 lost+found 





-o loop 


mount 


mount 


据 当 作 分 区 格式 来 解释 。 文 件 系 统 格式 化 之 后 在 根 目录 下 自动 生成 三 个 子 目 





选项 告诉 











录 : .， 
的 .和 . 
































这 是 一 个 常规 文件 而 不 是 一 个 块 设备 文件 。 会 把 它 的 数据 块 中 的 数 

















































































































. .和 1lost+founa。 其 它 子 目录 下 的 .表示 当前 目录 ，. .表示 上 一 级 目录 ， 而 根 目录 





















































BRAN A RA. lost+found H2 He2tsck LAH, 如 果 在 检查 磁盘 时 发 现 错误 , 
































就 把 有 错误 的 块 挂 在 这 个 目录 下 ， 因 为 这 些 块 不 知道 是 谁 的 ， 找 不 到 主 ， 就 放 在 这 里 “失物 招 





ST. 


现在 可 以 在 /mnt 







































































Ha 下 添加 删除 文件 ， 这 些 操 作 会 自动 保存 到 文件 fs 中 。 然 后 把 这 个 分 



































umount 下 来 ， 以 确保 所 有 的 改动 都 保存 到 文件 中 了 。 


注意 ， 下 面 的 实验 步骤 是 对 新 创建 的 文件 系统 做 的 ， 如 果 你 在 文件 系统 中 添加 删除 过 文件 ， 跟 
宁可 能 和 我 写 的 不 太一 样 ， 不 过 也 不 影响 理解 。 


现在 我 们 用 二 进 制 查看 工具 查看 这 个 文件 系统 的 所 有 字 节 ， 并 且 同 aumpezfs 工 具 的 输出 信息 相 














: $ sudo umount /mnt 








着 做 下 面 的 步骤 时 















































































































































比较 ， 就 可 以 很 好 地 理解 文件 系统 的 存储 布局 了 。 




















:$ od -txl 
; 000000 00 
1 大 


: 000400 80 
i 000410 75 











TARS 
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 


00 00 00 00 04 00 00 33 00 00 00 da 03 00 00 
00 00 00 01 00 00 00 00 00 00 00 00 00 00 00 








其 中 以 * 开 头 的 行 表示 这 一 段 数据 全 是 零 因 此 省 略 了 。 下 面 详 细 分 析 oa 输 出 的 信息 。 






















































































从 000000 开 始 的 1KB 是 启动 块 ， 由 于 这 不 是 一 个 真正 的 磁 副 分 区 ， 启 动 块 的 内 容 全 部 为 零 。 


从 000400 到 0007ff 的 1KB 是 超级 块 ， 对 照 着 aumpe2fs 的 输出 信息 ， 详 细 分 析 如 下 : 












































图 29.3. 超级 块 


000400 80 00 00 00 00 04 00 00 33 00 00 00 da 03 00 00 


inode count=128 block count=1024 reserved block count=51 free blocks=986 
000410 75 00 00 00 01 00 00 00 00 00 00 00 00 00 00 00 
free inodes=117 first blocke 1 log related (unused) 


000420 00 20 00 00 00 20 00 00 80 00 00 00 00 00 00 00 


blocks/group=8192  fragments/group-8192  inodes/group=128 last mount time=n/a 
Land 


000430 


ast write time: mount count max mount : S state err behavior minor rev # 
2007-12-16 14:56:59 -0 count=30 Magic# Z clean ^ continue =0 
000440 3b ec 64 47 00.4e ed 00.00 00 00 00 01 00 00 00 
ast cnec check interva 
2007-12-16 14:56:59 6 months OS type=Linux major rev #=1 
000450 QQ QO 00.00 Oh 00 0000.80.00 00 00 
reserve: reserv rst nonreserve inoge ble f 
blocks uid=0 blocks gid=0 inode=11 size=128 group #=0 compatible features 


000460 02 00 00 00 01 00 00 00 8e 1f 3b 7a 4d 1f 41 dc 


compatible features 


UUID 
000470 89 28 52 6e 43 b2 fd 74 00 00 00 00 00 00 00 00 


olumn nam 


UUID 
000480 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 


* olumn name st mounted on 


0004c0 00 00 00 00 00 00 00 00 00 00 00° 00 00 00 03 00 


last mounted on algorithm usage bitmap prealloc padding 











超级 块 中 从 0004d0 到 末尾 的 204 个 字 节 是 填充 字 节 ， 保 留 未 用 ， 上 图 未 画 出 。 注 意 ，ext2 文 件 
系统 中 各 字段 都 是 按 小 端 存储 的 ， 如 果 把 字 节 在 文件 中 的 位 置 看 作 地 址 ， 那 么 靠近 文件 开头 的 
是 低地 址 ， 存 低 字 节 。 各 字段 的 位 置 、 长 度 和 含义 详 见 [ULK]。 


从 000800 开 始 是 块 组 描述 符 表 ， 这 个 文件 系统 较 小 ， 只 有 一 个 块 组 描述 符 ， 对 照 着 aumpe2zfs 的 
输出 信息 分 析 如 下 : 


















































| Group 0: iB Iocks I= 1023) 

: Primary superblock at 1, Group descriptors at 2-2 
Reserved GDT blocks at 3-5 
Block bitmap at 6 (+5), Inode bitmap at 7 (+6) 
Inode table at 8-23 (+7) 
986 free blocks, 117 free inodes, 2 directories 

p Free blocks: 38-1023 

: Free inodes: 12-128 





图 29.4. 块 组 描述 符 


000800 06_00 00 00 07 00 00 00.08 00 00 00 gda 03 73-00 


Block bitmap at: 6 Inode bitmap at: 7 Inode table at: 8 -986 -117 


000810 02 Q0. 00 00 00 00 00 00 OO OO 00 00 OO OO 00 00 


2 directories padding 














整个 文件 系统 是 1MB， 每 个 块 是 1KB， 应 该 有 1024 个 块 ， 除 去 启动 块 还 有 1023 个 块 ， 分 别 编号 
为 1-1023， 它 们 全 都 属于 Group 0。 其 中 ，Block 1 是 超级 块 ， 接 下 来 的 块 组 描述 符 指 出 ， 块 位 
图 是 Block 6， 因 此 中 间 的 Block 2-5 是 块 组 描述 符 表 ， 其 中 Block 3-5 保 留 未 用 。 块 组 描述 符 还 指 
出 ，inode 位 图 是 Block 7，inode 表 是 从 Block 8 开始 的 ， 那 么 inode 表 到 哪个 块 结束 呢 ? 由 于 超 
级 块 中 指出 每 个 块 组 有 128 个 inode ， 每 个 inode 的 大 小 是 128 字 节 ， 因 此 共 占 16 个 块 ，inode 表 
的 范围 是 Block 8-23. 


从 Block 24 开 始 就 是 数据 块 了 。 块 组 描述 符 中 指出 ， 空 内 的 数据 块 有 986 个 ， 由 于 文件 系统 是 新 
创建 的 ， 空 闲 块 是 连续 的 Block 38-1023, ， 用 掉 了 前 面 的 Block 24-37。 从 块 位 图 中 可 以 看 出 ， 
前 37 位 〈 前 4 个 字 布 加 最 后 一 个 字 市 的 低 5 位 ) 都 是 1， 就 表示 Block 1-37 已 用 : 

































































































































































































































































erra 









































i 001800 xar esr Gear Sere dise OO 10/0). (00) M OOM 00 00 o0 0o OOO 





OES LOGO: 00 00 00 00 00 00 00000200000 00 00 00 00 00 
X 

: 001870 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 80 
p QILGNS ibi dti IIE Jed deis ARIE  dedt i Ie TEI Iie ABIE IRIE eI ANIE AEIR 


ES 

















在 块 位 图 中 ，Block 38-1023 对 应 的 位 都 是 0 〈 一 直到 001870 那 一 行 最 后 一 个 字 节 的 低 7 位 ) ， 
接 下 来 的 位 已 经 超出 了 文件 系统 的 空间 ， 不 管 是 0 还 是 1 都 没有 意义 。 可 见 ， 块 位 图 每 个 字 节 
的 位 应 该 按 从 低位 到 高 位 的 顺序 来 看 。 以 后 随 着 文件 系统 的 使 用 和 添加 删除 文件 ， 块 位 图 
的 1 就 变 得 不 连续 了 。 


块 组 摘 述 符 指出 ， 空 闲 的 inode 有 117 个 ， 由 于 文件 系统 是 新 创建 的 ， 空 闲 的 inode 也 是 连续 
的 ，inode 编 号 从 1 到 128， 空 闲 的 inode 编 号 从 12 到 128。 从 inode 位 图 可 以 看 出 ， 前 11 位 都 
是 1， 表 示 前 11 个 inode 已 用 : 
























































































































































i 001c00 ff 07 00 00 00 00 00 00 0000 00 00 00 00 00 00 
: 001c10 rau: Ea. te DEAE, ARA ARS Nn Ie IESG indu SARIRA ADU SERA NEIE AEIR 
HX 





























ao 

















以 后 随 春 文件 系统 的 使 用 和 添加 删除 文件 ，inode 位 图 中 的 1 就 变 得 不 连续 了 。 


001c00 这 一 行 的 128 位 就 表示 了 所 有 inode ， 因 此 下 面 的 行 不 管 是 0 还 是 1 都 没有 意义 。 已 用 
的 11 个 inode 中 ， 前 10 个 inode 是 被 ext2 文 件 系统 保留 的 ， 其 中 第 2 个 inode 是 根 目录 ， 
第 11 个 inode 是 lost+found 目 录 ， 块 组 描述 符 也 指出 该 组 有 两 个 目录 ， 就 是 根 目录 


和 1lost+found。 
探索 文件 系统 还 有 一 个 很 有 用 的 工具 aepugfs ， 它 提供 一 个 命令 行 界面 ， 可 以 对 文件 系统 做 各 种 


操作 ， 例 如 查看 信息 、 恢 复数 据 、 修 正文 件 系统 中 的 错误 。 下 面 用 aebusfs 打 开 fs 文 件 ， 然 后 在 
提示 符 下 输入 help 看 看 它 都 能 做 哪些 事情 : 




































































































































































































































































: $ debugfs fs 
debut sl 4062. (12 sul 2009) 
: debugfs: help 






































在 qepugfs 的 提示 符 下 输入 stat /命令 ， 这 时 在 新 的 一 屏 中 显示 根 目录 的 inode 信 息 : 


! Inode: 2 Type: directory Mode: 0755 Flags: 0x0 
"Gcenesabuome p 

: User: 1000 Group: 1000 Size: 1024 

i Pile ACh: 0 Directory ACL: 0 

i Links: 3  Blockcount: 2 

‘Fragment: Address: 0 Number: 0 Size: 0 

etalme: 0x4/64ce3b m Sun Dec om 1 4:56:9599200% 

i atime: 0x4764cc3b == Sun Dec 16 14:56:59 2007 

; mtime: 0x4764cc3b -- Sun Dec 16 14:56:59 2007 
































按 qgi 


! BLOCKS: 
| (0) :24 
: TOTAL: 1 





退出 这 一 屏 ， 然后 用 gquit 命 令 退出 qepugfs: 




















把 以 上 信息 和 oa 命令 的 输出 对 照 起 来 分 析 : 





图 29.5. 根 目录 的 inode 





002080 ed 41 e8 03 00 04 00 00 3b cc 64 47 3b cc 64 47 
Si mode 





=040755 User=1000 Size=1024 atime ctime 
002090 3b ce 64 47 00 00 00 00 e8 03 03 00 02 00 00 00 
mtime dtime Group=1000 Links=3 Blockcount=2 
0020a0 00 00 00 00 00 00 00 00 18 00 00 00 00 00 00 00 
Flags=0 OS Information Blocks[0]=24 Blocks(1] 
0020b0 00 00 OO OO 00 OO OO OO OO OO OO OO 00 OO OO 00 
* Blocks[2] Blocks[3] Blocks[4] Blocks[5] 








上 图 











(各 和 




















1 的 st_mode 以 八进制 表示 ， 包 含 了 文件 类 型 和 文件 权限 ， 最 高 位 的 4 表示 文件 类 型 为 目录 
中 文件 类 型 的 编码 详 见 stat(2)) ， 低 位 的 755 表 示 权 限 。Size 是 1024， 说明 根 目 录 现 在 只 






































一 个 数据 块 。Links 为 3 表示 根 目录 有 三 个 硬 链接 ， 分 别 是 根 目录 下 的 .和 ..， 以 及 lost+found 子 
































目录 下 的 ..。 注 意 ， 虽 然 我 们 通 消 用 /表示 根 目 录 ， 但 是 并 没有 名 为 /的 硬 链接 ， 事 实 上 ，/ 是 路 
么 分 隔 符 ， 不 能 在 文件 名 出现。 这 里 的 alockcount 是 以 512 字 节 为 一 个 块 来 数 的 ， 并 非 格式 化 





文件 系统 时 所 指定 的 块 大 小 ， 磁 盘 的 最 小 读 写 单位 称 为 扇 区 (Sector) ， 通 常 是 512 字 节 ， 所 
以 Blocxkcount 是 磁盘 的 物理 块 数量 ， 而 非 分 区 的 逻辑 块 数量 。 根 目录 数据 块 的 位 置 由 上 图 中 




















































































































的 Bloecksrol 指 出， 也 就 是 第 24 个 块 ， 它 在 文件 系统 中 的 位 置 是 24x0x400=0x6000， 从 oa 命令 








输出 














目录 的 数据 块 由 许多 不 定 长 的 记录 组 成 ， 每 条 记录 描述 该 目录 下 的 一 个 文件 ， 在 上 图 中 用 框 表 
示 。 第 一 条 记录 描述 inode 号 为 2 的 文件 ， 也 就 是 根 目 录 本 刁 ， 该 记录 的 总 长 度 为 12 字 节 ， 其 中 


! 找 到 006000 地 址 ， 它 的 格式 是 这 样 : 














图 29.6. 根 目 录 的 数据 块 








006000[0 L02 on 00 00 Toc Qo ot Mal2e oo oo og 02 00 00 od 


inode 2 s 32 s ity pe 


0060100 De A Pe 2e 00 00 


record na 


inode 2 







， recor name e 
inode 11 


len=12 ei 2 type ~ len=1000len=10 type 


006020 T Ln 
"lost-- found" 


006030_00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 QO . 













































































文件 名 的 长 度 为 1 字 节 ， 文 件 类 型 为 2 ( 见 下 表 ， 注 意 此 处 的 文件 类 型 编码 和 st_mode 不 一 致 ) ， 
文件 名 是 .。 




















第 二 条 记录 也 是 描述 inode 号 为 2 的 文件 














表 29.1. 目录 中 的 文件 











编码 | ”文件 类 型 
o [Unknown — | 


e ee — | 

















HOUSE 文件 类 型 为 2， 文 件 
述 inode 号 为 1 1 的 文件 
来 是 1024 字 节 ) , 






































ox 





名 


(lost+found 


文件 类 型 为 2， 





tr 


编码 





v sy 


字符 



























































目录 

















录 F 创 建新 的 文件 ， 可 以 把 第 
名 太 多 ， 一 个 数据 块 不 够 月 





文件 
段 。 


qebugfs 也 提供 了 ca、1s 等 命令 


目录 : 





看 根 





列 出 了 inode 号 、 记 录 长 度 和 文件 


习题 






































1、 请 


2、 mount 这 个 文件 系统 ， TE H E JÉ 
比较 一 下 看 哪些 





的 结 














三 条 记录 截 
H, WA 


























名 ， 


prs, 




















青 读者 仿照 对 根 目 录 的 分 析 ， 



































2.3. 数据 块 寻 址 





如 果 一 个 文件 











索引 项 Blocks[12] Art 
的 都 是 类 似 Blocks I 
块 中 可 以 存放 b/4 个 索引 项 ,于 





的 索引 
块 编号 ， 例 如 上 面 的 例子 
块 大 小 是 1KB ， 这 样 可 以 表示 从 0 字 节 到 12KB 的 文件 。 
项 Blocks[12] AON [14] 也 是 这 么 用 的 ， 
剩 下 的 三 个 索引 项 都 是 间接 索引 。 


旨 问 的 块 并 非 效 据 块 ， 而 是 称 为 间接 寻 址 
0] 这 种 索引 项 ， 再 由 索引 项 指 疝 交 
数据 块 。 所 以 如 一 


事实 上 ， 























B E oststound, 后面 全 是 0 字 节 。 
ei AO A 如 采 该 目录 下 的 
ARE o 





M E m cdi rn 其 PCE ATS 


























如 果 要 在 根 目 




















会 填充 到 inode 的 Blocks[1] 字 



























































这 些 信息 























i 添加 删除 文件 ， 
字 节 发 生 了 变化 。 


有 多 个 数据 块 ， 这 些 数 据 块 很 可 能 





























Blocks[0] 














根据 上 面 的 分 析 ， 根 目录 的 数据 块 是 通过 其 inode 


项 一 共有 15 个 ， 从 Blocks[0] 到 Bloc 

























































































字段 表示 第 2 





目录 的 数据 块 











' 读 出 来 的 。 








日 录 的 inode 和 数据 块 的 格式 。 
然后 umount 下 来 ， 再 次 分 析 它 的 格 























的 索引 项 Blocks[0 


页 占 4 字 





的 目录 ， 例 如 用 1s 碍 





式 ， 和 原来 


\ 是 连续 存放 的 ， 应 该 如 何 寻 址 到 每 个 块 呢 ? 





事实 上 ， 这 样 
。 前 12 个 索引 项 都 表示 
4 个 块 是 该 文件 的 数据 全 



































外 向 b/4 个 





























RRI FLA 
就 只 能 表示 最 大 15KB 的 文件 了 ， 


块 (Indirect Block) ， 其 中 
。 设 块 大 小 是 bp， 那么 一 个 间接 寻 址 
flB1ocksi12] 都 用 上 ,最 


locks[0] 


索引 

















这 是 远 远 不 够 





如 果 





























FDA 


























多 可 以 表示 b/4+12 个 数据 块 ， 对 于 块 大 小 是 1K 的 情况 ， 最 大 可 表示 268K 的 文 伯 
注意 文件 的 数据 块 编号 是 从 0 开始 的 ，B1locks [10] 指 向 第 0 个 数据 块 ，Blocks[11 
H, Blocks[12] 所 指向 的 间接 寻 址 块 的 第 一 个 索引 项 指向 第 12 个 数据 块 ， 依 此 类 + 


图 29.7. 数据 块 的 寻 址 


on ove Wn ek © 


E A4 (om 
































[m 
































^. 如 下 图 所 示 ， 
指向 第 11 个 数据 





从 上 图 可 以 看 出 ， 索 引 项 Blocks1131 指 向 两 级 的 间接 寻 址 块 ， 最 多 可 表示 (b/4)<+b/4+12 个 数据 


块 ， 对 于 1K 的 块 大 小 最 大 可 表示 64.26MB 的 文件 。 索 引 项 Blocks[14] 指 向 三 级 的 间接 寻 址 块 ， 























最 多 可 表示 (b/4)3+(b/4)2+b/4+12 个 数据 块 ， 对 于 1K 的 块 大 小 最 大 可 表示 16.06GB 的 文件 。 


可 见 


这 种 寻 址 方式 对 于 访问 不 超过 12 个 数据 块 的 小 文件 是 非常 快 的 ， 访 问 文件 





























则 需要 最 多 五 次 读 盘 操作 : inode、 一 级 间接 寻 址 块 、 二 级 间接 寻 址 块 、 三 级 间接 寻 址 





Be. Sink, Ri 



































的 任意 数据 








只 需要 两 次 读 盘 操作 ， 一 次 读 inode (也 就 是 读 索引 项 ) 一 次 读数 据 块 。 而 访问 大 文件 

















2.4. 文件 和 目录 操作 的 系统 函数 


本 市 简要 介绍 























下 文件 和 

















Stat (2) 


给 调用 者 。 S 


1. 


2. 


3. 


4. 


5. 


AAMT stat 的 函数 : estat (2) KAEA — S BAT PCTS 





目录 操作 常用 的 系统 函数 ， 常 用 的 文人 
基于 这 些 函 数 实现 的 。 本 节 的 侧重 点 在 于 讲解 这 些 函 数 的 了 
fE SEEM JE É 

















函数 读 取 文人 

















读 出 inode 表 








F 的 inode ， 然 后 把 inode 























F 操 作 命 令 如 1s、cp、mv 等 也 是 





的 数据 
块 、 数 据 





的 inode 和 数据 块 往往 已 经 被 内 核 缓存 了 ， 读 大 文件 的 效率 也 不 会 太 低 。 






































作 原 理 ， 而 不 是 如 何 使 用 它们 ， 理 


二 

















































































































! 找 出 根 目录 数据 块 的 位 置 




















读 出 opt 











目录 的 inode ， 从 


! 找 出 文件 名 为 opt 的 记录 ， 从 记录 














! 读 出 它 的 inode 号 














' 找 出 它 的 数据 块 的 位 置 











从 opt 





目录 的 数据 块 

















Efile XH 


的 inode 


' 找 出 文件 名 为 fi1e 的 记录 ， 从 记录 














! 读 出 它 的 inode 号 








， 传 出 inode 信 


里 之 后 再 看 这 些 函 数 的 用 法 就 很 简单 了 ， 请 读 己 查 阅 Man Page 了解 其 用 法 。 
1 的 各 种 文件 属性 填 入 一 个 struct stat 
tat (1) 命令 是 基于 stat 函数 实现 的 。stat 需 要 根据 传 入 的 文 伯 
设 一 个 路 径 是 /opt /file， 则 查找 的 顺序 是 : 
! 第 2 项 ， 也 就 是 根 目 录 的 inode ， 从 


从 根 目录 的 数据 块 





吉 构 体 传 出 
路 径 找到 inode ， 假 
































KA, istat (2) 
号 链接 时 ， stat (2) 
接 文件 本 身 的 inode。 








函数 也 是 传 和 路 径 传 出 inode 信 
阔 数 传 出 的 是 它 所 指向 的 















































PRB 


access (2) 


SPU 4 BRE Hj 























问 操作 〈 读 / 写 / 执 行 ) access 了 图 数 取 出 文件 inode 








返回 0 表示 人 允许 访 忆 


chmod ( 2) 和 fchmod (2 


RUE BID T eee roca 。 


chown( 2)/ £chown (2 Douai 


B 只 有 超级 用 户 


dg. es 











utime ( 


Et. 





1) fiit FEA 








touch( 


truncate( 2) fll£truncate (2 


chown (1 


函数 改变 文件 的 访问 时 间 
Fut ime PR 


] ， 返 回 -1 表示 错误 


chmod (1 


,改变 

















) 命令 是 基于 


和 修改 
煞 实 现 的 。 


函数 把 文件 截断 到 茶 
































PH BUR REOS 
的 st_moae 字 段 ， 比 较 一 下 访问 权限 ， 














或 不 允许 访问 。 


函数 改变 文件 的 访问 权限 ， 也 就 是 修改 inode 
1) fi JédE T chmod PECES s 


文件 的 所 有 者 和 组 ， 也 就 是 修改 inode 
能 正确 调用 这 斤 个 函数 ， 这 几 个 函数 之 间 的 区 别 类 似 
chown PRAM SELEY o 


时 间 ， 也 就 是 修改 inode 











息 ， 但 是 和 stat 水 数 有 一 点 不 同 ， 当 文件 
目标 文件 的 inode ， 而 1stat EE 





数 传 出 











te SOE 





个 文件 ， 





















































的 就 

















路 径 和 要 执行 的 访 





然后 


1 的 st_mode 字 段 。 这 两 个 也 


的 ussz 和 Group 字 


1 的 atime 和 mtime 字 















































改 inode 中 的 Bl 





ocks 索 引 项 以 及 





而 的 数据 被 夫 掉 了 ， 如 果 新 的 长 度 比 厌 来 的 长 度 长 ， 























块 位 图 
是 在 





1 相应 的 bit。 








个 长 度 ， 如 果 新 的 长 度 比 


原来 的 长 度 短 ， 


则 后 























则 后 面 多 出 来 的 部 分 用 0 填充 ， 这 需要 修 


iX WA ER 














Link (2) EAA) 
GU BL. 
的 文件 类 型 是 符号 链接 , 








symlink (2 














M HIS 
原文 件 











函数 创建 一 个 符号 链接 ， 
的 路 径 人 





目录 的 数据 块 





添加 一 



































是 基于 1ink 和 syml 


unlink (2 


除 inode 位 





ink PE CS ELS 0 


PR SUI RR— “GER JA 
图 和 块 位 图 中 相应 的 


Ms 








ASSOC PE AY RE RERO Z 
和 块 位 图 中 相应 的 位 ， 这 样 
现 的 。 


























经 是 1 





是 名 











H 





ess 
SSS 





! 











了 还 要 删除 
就 真 的 删 
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保存 在 inode 


硬 链接 则 从 














数 的 区 别 类 似 于 stat 























条 新 记录 ， 其 











需要 创建 








个 新 的 inode ， 其 






































除 文 件 了 。 























rename ( 


Sy 





2) 水 数 改 变 文件 名 ， 需 要 修改 





























目录 下 则 需要 从 原 
a edd a 
































目录 数据 块 


unlink ( 


目录 数据 块 中 的 文件 名 记录 ， 如 采 原 文件 




















或 者 分 配 一 个 数据 块 来 保存 。 








号 链接 则 释放 这 个 符号 链接 的 inode 和 数据 块 ， 清 
是 目录 的 数据 块 中 清除 一 条 文 
x MAS dC ps 





He, 3 
) 命令 





1 的 inode 号 


/fstato 


字段 和 
中 st_mode 字 上段 


1n (1) 命令 





件 名 记录 ， 如 
青 除 inode 位 图 














) AR 命令 和 rm(1 ) Hg o Ae dá] 
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FunlinkPK A E 


和 新 文件 名 不 

















清除 














条 记录 然后 添加 到 新 





目录 的 数据 块 





1 合作 











因此 在 | 








的 inode 和 数据 块 ， 只 需要 

















件 也 要 随 着 一 起 移动 ， 移 动 操作 也 





不 同 的 分 区 之 间 移 动 文件 就 必 
和 文件 都 要 复制 删除 ， 



































xx 


AE i 
很 慢 了 。 

















司 一 分 区 的 不 同 


目录 
































移动 文件 并 不 需要 复制 和 






































readlink (2) 


读 出 保存 的 数据 ， 这 就 是 




















函数 读 取 一 个 符号 




















mkdir (2) PACE! EE BH] 
的 inode 和 数据 块 ， 





inode se moae BEN CFA 


链接 所 指 
目标 路 径 。 


目录 ， 要 做 的 操作 是 在 它 的 父 


Ft 


问 的 








个 改名 操作 ， 即 使 要 移动 整个 
只 是 对 顶级 目录 的 改名 操作 ， 很 快 就 


同和 删除 Iinode 和 数据 块 ， 如 果 要 移动 整个 











目录 ， 这 个 目录 下 有 很 








能 和 完成。 但是， 如 采 在 


o mv(1) WY 
EUR E Sc 
多 子 目 录 和 文 












































目录 




































































对 此 父 


目标 路 径 ， 其 原理 是 从 符号 
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目录 数据 块 








添加 一 条 记录 ， 











则 是 目录 ， 在 数据 块 




















日 录 的 硬 链 ] 








te. A. , FP. Real 
现 的 。 


rmdir (2) PRA ER — 1 
放 它 的 inode 和 数据 
目录 的 硬 链接 数 要 


HX, 
































kT o 


opendir (3) /readdir (3) 


目录 ， 


rmdir ( 工 


这 个 


块 ， 清 除 inode 


/closedir (3) H T 3] 


H3 





MOER] 





ETI o 


页 是 空 的 (只 包含 .和 . 





. ) 
相应 的 位 ， 清 除 父 











立 图 和 块 位 图 











DU Ze 


命令 是 其 














链接 的 inode 或 数据 块 


， 所 有 子 目录 

















然后 分 配 新 
K, I 





mkdir ( 

















才能 删除 ， 要 


1) TPS Ez 1 





Fmkdir PEZ E 





做 的 操作 是 释 











目录 数据 块 
































ty A 


























Fenair 函 数 实现 的 。 


目录 数据 块 中 的 记录 。 


opendir 打 开 一 个 


! 的 记录 ， 父 


- 





Ht, 














回 一 个 pIR * 指 针 代 表 这 个 目录 ， 它 是 一 个 类 似 FILE * 指 针 的 句柄 ，closeqir 用 于 关闭 这 个 名 
W, 把 DIR * 指 针 传 给 reaggir 读 取 有 目录 数据 块 !' 的 记录 ， 每 次 返回 一 个 指向 struct dirent 的 指 
针 ， 反 复读 就 可 以 裔 历 所 有 记录 ， 所 有 记录 遍历 完 之 后 readgir 返 回 NULL。 结 构 体 struct 


airent 的 定义 如 下 : 
















































































‘eiruck dirent. 4 


ino t d ino; /* inode number */ 

ice 4E d off; /* offset to the next dirent */ 
unsigned short d reclen; /* lengten of toisg record */ 
unsigned char d_type; [= eye OE tee 

char d_name [256]; /* filename */ 












































这 些 字段 和 图 29.6 “ 录 的 数据 块 ? 基 本 一 致 。 这 里 的 文件 名 a_name 被 库 函 数 处 理 过 ， 已 经 在 
结尾 加 了 "\0'， 而 图 29.6“ 根 目录 的 数据 块 " 中 的 文件 名 字段 不 保证 是 以 \0' 结 尾 的 ， 需 要 根据 前 矣 
的 文件 名 长 度 字 段 确定 文件 名 到 哪里 结束 。 


下 面 这 个 例子 出 自 [K&R]， 作 用 是 递归 地 打印 出 一 个 目录 下 的 所 有 子 目 录 和 文件 ， 类 似 1s -Ro 














































































































us 


















































例 29.1. 递归 列 出 目录 中 的 文件 列表 

















: #include <sys/types.h> 
: #include <sys/stat.h> 
i #include <unistd.h> 

: #include <dirent.h> 

: #include <stdio.h> 
srinclude <string.h> 


i #define MAX_PATH 1024 


Le dirwalk: apply fcn to all files in dir */ 
: void dirwalk(char *dir, void (*fcn) (char *)) 
TEN 
char name[MAX PATH]; 
struct dirent *dp; 
DIR diad; 


if ((dfd = opendir(dir)) == NULL) { 
fprintf(stderr, "dirwalk: can't open 
t Sayat, Chahe 


return; 
} 
while ((dp = readdir(dfd)) != NULL) { 
if (strcmp(dp-»d name, ".") == 0 
| | strcmp(dp-»d name, "..") == 0) 
continue; /* skip self and 


|: parent */ 
| if (strlen(dir)+strlen(dp->d_name)+2 > 
: sizeof (name) ) 
fprintf(stderr, "dirwalk: name 
| $s %s too long Wn", 
| dir, dp-»d name); 
else { 
i sprintf(name, "£s/$s", dir, dp- 
: »d name); 
| (*fcn) (name); 
} 

} 
closedir (dfd) ; 
3 


US fsize: print the size and name of file "name" */ 
: void fsize(char *name) 

: { 
: SELCE SEAE SEIER 








if (stat(name, &stbuf) == -1) { 

: fprintf(stderr, "fsize: can't access 
|: $s\n", name); 
return; 
} 
if ((stbuf.st_mode & S_IFMT) == S_IFDIR) 

dirwalk (name, fsize); 
printf ("%8ld %s\n", stbuf.st size, name); 


|j 


: int main(int argc, char **argv) 


mi 


: le (arge == taceant euren cles: 
E ff 
: it epe (Ws Wy p 
else 
while (--argc > 0) 


fsize(*++argv) ; 


return 0; 

































































3. VFS 


au 第 29 章 文件 系统 下 二 机 


3. VFS 


Linux 支 持 各 种 各 样 的 文件 系统 格式 ， 如 ext2、ext3、reiserfs、FAT、NTFS、iso9660 等 等 ， 不 
司 的 磁盘 分 区 、 它 存储 设备 都 有 不 同 的 文件 系统 格式 ， 然 而 这 些 文件 系统 都 可 
以 mount 到 某 个 ， 使 我 们 看 到 一 个 统一 的 目录 树 ， 各 种 文件 系统 上 的 目录 和 文件 我 们 
用 1 命令 看 起 来 是 一 i 读 写 操 生 用 起 来 也 都 是 一 REN, OIE ABI ASME? Linux AES 
种 不 同 的 文件 系统 格式 之 上 做 了 一 个 抽象 层 ， 使 得 文件 、 目 录 、 读 写 访问 等 概念 成 为 抽象 层 的 
概念 ， 因 此 各 种 文件 系统 看 起 来 用 起 来 都 一 样 ， 这 个 抽象 层 称 为 虚拟 文件 系统 (VES, Virtual 
Filesystem) 。 上 一 节 我 们 介绍 了 一 种 典型 的 文件 系统 在 磁盘 上 的 存储 布局 ， 这 一 节 我 们 介绍 运 


行 时 文件 系统 在 内 核 中 的 表示 。 
3.1. 内 核 数据 结构 


Linux 内 核 的 VFS 子 系统 可 以 图 示 如 下 : 
























































































































































































































































图 29.8. VFS 


Process 1 fd-open("/home/akaedu/a", O RDONLY); 










bir. inus file operations 
of | file 
xr f flags: O RDONLY 
A | 
aE g E S 

| 

inode 

Process 2 fd=open("/home/akaedu/a™ | uta: 1000 
files struct Iseek(fd, 10, SEEK SET); size: 100 





of | file 


f flags: O WROND 
count: 1 


f dent 


QJ 
- 











0 file super block 

1 f flags: O RDONLY 5 type: ext2 

n 
| flop  — - | omm | 
NENNEN 








在 第 28 音 文件 与 VO 中 讲 过 ， 每 个 进程 在 PCB (Process Control Block) 中 都 保存 着 一 份 文 件 
描述 符 表 ， 文 件 描述 符 就 是 这 个 表 的 索引 ， 每 个 表 项 都 有 一 个 指向 已 打开 文件 的 指针 ， 现 在 我 
们 明确 一 下 : 已 打开 的 文件 在 内 核 中 用 file 结 构 体 表示 ， 文 件 描 述 符 表 中 的 指针 指向 file 结 构 
体 。 


在 file 结 构 体 中 维护 File Status Flag (file 结 构 体 的 成 员 f_flags) 和 当前 读 写 位 置 (tile 结构 
RIR AE pos) 。 在 上 图 中 ， 进 程 1 和 进程 2 都 打开 同一 文件 ， 但 是 对 应 不 同 的 tile 结构 体 ， 因 
此 可 以 有 不 同 的 File Status Flag 和 读 写 位 置 。file 结 构 体 中 比较 重要 的 成 员 还 有 E_count ， 表 示 
引用 计数 (Reference Count) ， 后 面 我 们 会 讲 到 ，aup、fork 等 系统 调用 会 导致 多 个 文件 描述 
符 指向 同一 个 tile 结构 体 ， 例 如 有 fa 和 fd2 都 引用 同一 个 file 结 构 体 ， 那 么 它 的 引用 计数 就 

是 2， 当 close (fa) 时 并 不 会 释放 file 结 构 体 ， 而 只 是 把 引用 计数 减 到 1， 如 果 再 close (fa2) , 

引用 计数 就 会 减 到 0 同时 释放 file 结 构 体 ， 这 才 真 的 关闭 了 文件 。 
























































































































































每 个 tile 结构 体 都 指向 一 个 file_operations 结 构 体 ， 这 个 结构 体 的 成 员 都 是 函数 指针 ， 指 向 实 
现 各 种 文件 操作 的 内 核 函 数 。 比 如 在 用 户 程序 中 reaa 一 个 文件 描述 符 ，r*eaqa 通 过 系统 调用 进入 

内 核 ， 然 后 找到 这 个 文件 描述 符 所 指向 的 tile 结构 体 ， 找 到 file 结 构 体 所 指向 

的 file_operations 结 构 体 ， 调 用 它 的 reaa 成 员 所 指向 的 内 核 函 数 以 完成 用 户 请 求 。 在 用 户 程序 
中 调用 1seexk、 ready write^ ioctl» open ÉE PKZ, 最 终 都 由 内 核 调用 file_operations 的 各 成 员 
所 指向 的 内 核 函数 完成 用 户 请 求 。 file_operations 结 构 体 中 的 release 成 员 用 于 完成 用 站 程序 









































































































































的 close 请 求 ， 之 所 以 叫 release 而 不 叫 close 是 因为 它 不 一 定 真 的 关闭 文件 ， 而 是 减少 引用 计 
数 ， 只 有 引用 计数 减 到 0 才 关 闭 文 件 。 对 于 同一 个 文件 系统 上 打开 的 常规 文件 来 

说 ，read、write 等 文件 操作 的 步骤 和 方法 应 该 是 一 样 的 ， 调 用 的 函数 应 该 是 相同 的 ， 所 以 图 
的 三 个 打开 文件 的 file 结 构 体 指向 同一 个 file_operations 结 构 体 。 如 果 打 开 一 个 字符 设备 文 
f, 那么 它 的 reaa、 write 操作 肯定 和 首 规 文件 不 一 FÉ, 不 是 读 写 磁盘 的 数据 块 而 是 读 T3 RE FE Ww 
备 ， 所 以 file 结 构 体 应 该 指向 不 同 的 file_operations 结 构 体 ， 其 中 的 各 种 文件 操作 函数 由 该 设 
备 的 驱动 程序 实现 。 


每 个 file 结 构 体 都 有 一 个 指向 gentry 结 构 体 的 指针 ,，“dentry” 是 directory entry (目录 项 ) 的 缩 
写 。 我 们 传 给 open、stat 等 函数 的 参数 的 是 一 个 路 径 ， 例如 /home/akaedu/a， 需要 根据 路 径 找 到 
文件 的 inode。 为 了 减少 读 盘 次 数 ， 内 核 缓存 了 目录 的 树 状 结构 ， 称 为 dentry cache， 其 中 每 个 
节点 是 一 个 aentry 结 构 体 ， 只 要 沿 着 路 径 各 部 分 的 dentry 搜 索 即 可 ， 从 根 目录 /找到 home 目 录 ， 
然后 找到 akaeau 目 录 ， 然 后 找到 文件 as。dentry cache 只 保存 最 近 访问 过 的 目录 项 ， 如 果 要 找 的 
目录 项 在 cache 中 没有 ， 就 要 从 磁盘 读 到 内 存 


每 个 dentry 结 构 Revs 一 个 指针 指向 inoae 结 构 体 。inoae 结 构 体 保存 着 从 磁盘 inode 读 上 来 的 信 
已。 在 上 图 的 例子 ， 有 两 个 dentry , Add AE UM NE E 它们 都 指向 
同一 个 inode , 说 明 这 两 个 文件 互 为 病 链 接 。 inode 结 构 体 中 保存 着 从 磁盘 分 区 的 inode 读 上 来 信 
妃 ， 例 如 所 有 者 、 文 件 大 小 、 文 件 类 型 和 权限 位 等 。 每 个 inoae 结 构 体 都 有 一 个 指 
[HJ inode_ operations 4H 4 构 体 的 指针 ， 后 者 也 是 一 组 函 ; 数 指针 指向 一 些 完成 文件 目录 操作 的 内 核 函 
ZI. 和 file _operations 不 同 ， inode _operations 所 指向 的 不 是 针对 革 个 文件 ; EATER PH K 

数 ， 而 是 影响 文件 和 目录 布局 的 函数 ， 例 如 添加 删除 文件 和 目录 、 跟 踪 符 号 链接 等 等 ， 属 于 同 
一 文件 系统 的 各 inoae 结 构 体 可 以 指向 同一 个 inode_operations 结 构 体 。 


inode 结 构 体 有 一 个 指 [A] super_ block 结 构 体 的 指针 。 super_block 结 构 体 保存 着 从 磁盘 分 区 的 超 
级 块 读 上 来 的 信息 ， 例 如 文件 系统 类 型 、 块 大 小 等 。super_block 结 构 体 的 s_root 成 员 是 一 个 指 
向 aentry 的 指针 ， 表 示 这 个 文件 系统 的 根 目录 被 mount 到 哪里 ， 在 上 图 的 例子 中 这 个 分 区 

被 mount fill /home H3& P. 


file. dentry. inode» super: plockiXJLT f 吉 构 体 组 成 了 VFS 的 核心 概念 。 对 于 ext2 文 件 系 统 来 
说 ， 在 磁盘 存储 布局 上 也 有 inode 和 超级 块 的 概念 ， 所 以 很 容易 和 VFS 中 的 概念 建立 对 应 关系 。 
而 另外 一 些 文件 系统 格式 来 自 非 UNIX 系 统 (例如 Windows 的 FAT32、NTFS) ， 可 能 没 

有 inode 或 超级 块 这 样 的 概念 ， 但 为 了 能 mount 到 Linux 系 统 ， 也 只 好 在 驱动 程序 中 硬 凑 一 下 ， 

在 Linux 下 看 FAT32 和 NTFS 分 区 会 发 现 权 限 位 是 错 的 ， 所 有 文件 都 是 rwxrwxrwx ， 因 为 它们 本 来 
就 没有 inode 和 权限 位 的 概念 ， 这 是 硬 凌 出 来 的 。 
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3.2. dup 和 dup2 函 数 


























daup 和 adup2 都 可 用 来 复制 一 个 现存 的 文件 描述 符 ， 使 两 个 文件 描述 符 指向 同一 个 file 结 构 体 。 如 
果 两 个 文件 描述 符 指 向 同一 个 file 结 构 体 ，File Status Flag 和 读 写 位 置 只 保存 一 份 在 file 结 构 
体 中 ， 并 且 file 结 构 体 的 引用 计数 是 2。 如 果 两 次 open 同 一 文件 得 到 两 个 文件 描述 符 ， 则 每 个 描 
述 符 对 应 一 个 不 同 的 tile 结构 体 ， 可 以 有 不 同 的 File Status Flag 和 读 写 位 置 。 请 注意 区 分 这 两 
种 情况 。 



































































































































i #include <unistd.h> 


: int dup(int oldfd); 
EIE dup2(int oldfd, int newfd); 














如 果 调 用 成 功 ， 这 两 个 函数 都 返回 新 分 配 或 指定 的 文件 描述 符 ， 如 果 出 错 则 返回 -1。aup 返 回 的 
新 文件 描述 符 一 定 该 进程 未 使 用 的 最 小 文件 摘 述 符 ， pie 点 和 open 类 似 。 qup2 可 以 用 newfda 人 参数 
指定 新 描述 符 的 数值 。 如 果 newfa 当 前 已 经 打开 ， 则 先 将 其 关闭 再 做 aup2 操 作 ， 如 果 olafa 等 

ale newfd, 则 aup2 直 接 返 回 newfa 而 不 用 先 关 闭 newfa 再 复制 。 




































































































































































下 面 这 个 例子 演示 了 aup 和 aup2z 函 数 的 用 法 ， 请 结合 后 面 的 连环 画 理解 程序 的 执行 过 程 。 

















FH. 

















例 29.2. dup 和 dup2 示 例 程 序 


i #include <unistd.h> 

i #include «sys/stat.h» 
| #include «fcntl.h» 

: finclude <stdio.h> 

i #include <stdlib.h> 

i #include <string.h> 





: int main (void) 
: { 
: ine 3L. save a; 

char msg[] = "This is a test\n"; 


: fd = open("somefile", O_RDWR|O_CREAT, 
: S_IRUSR|S_IWUSR); 


LE (TECKA) di 
perror ("open"); 
exit (1); 

} 


save_fd = dup(STDOUT_FILENO) ; 

dup2 (fd, STDOUT_FILENO) ; 

close (fd); 

write(STDOUT FILENO, msg, strlen(msg)); 
dup2(save fd, STDOUT FILENO); 
write(STDOUT FILENO, msg, strlen(msg)); 
close(save fd); 

return 0; 








图 29.9. dup/dup2 示 例 程 


Th 





1. 2. 


fd = open("somefile", ...); 


save fd = dup(1); 





of =>Cy 
1 C tty) 
2 
fd=3| — Gomefild fd 
save fd 
3. dup2 (fd, 1); 4. 





save fd=4 = save fd=4 z= 
s. dup2 (save fd, 1); write(1, ...); " close(save fd); 





重点 解释 两 个 地 方 : 


。 第 3 幅 图 ， 要 执行 aup2 (fa，1); ， 文 件 描述 符 1 原本 指向 tty， 现 在 要 指向 新 的 文 
件 somefile， 就 把 原来 的 关闭 了 ， 但 是 tty 这 个 文件 原本 有 两 个 引用 计数 ， 还 有 文件 描述 
符 save_fa 也 指向 它 ， 所 以 只 是 将 引用 计数 减 1， 并 不 真 的 关闭 文件 。 


。 第 5 幅 图 ， 要 执行 aup2 (save_fda，1); ， 文 件 描述 符 1 原 本 指 癌 somefile， 现 在 要 指 疝 新 的 
文件 tty， 就 把 原来 的 关闭 了 ，somefile 原 本 只 有 一 个 引用 计数 ， 所 以 这 次 减 到 0， 是 真 的 
关闭 了 。 


Is p A E A 
2. ext2 文 件 系统 起 始 页 第 30 章 进程 















































































































































4.1. 管道 
4.2. HE IPCHL ii 


5. 练习 : 实现 简单 的 Shell 


BEST 


1. 引言 


我 们 知道 ， 
的 进程 控 币 









































进程 id。 系 统 中 每 个 进程 有 唯一 的 id ， 


进程 的 状态 ， 有 运行 、 挂 起 、 俘 止 、 僵 














每 个 进程 在 内 核 


ilc ask st ruct i 





都 有 一 个 进程 控 ay 
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HIER (PCB) 来 维护 进程 相关 的 信息 ，Linux 内 核 












































在 C 语 言 













































































进程 切换 时 需要 保存 和 恢复 的 一 些 CPU 寄 存 器 
描述 虚拟 地 址 空间 的 信息 。 


描述 控制 终端 的 信息 。 


当前 工作 目录 (Current Working Directory) 。 





umask Tí R3 o 








文件 描述 符 表 ， 包 含 很 多 指 握 





























和 信和 号 相关 的 信息 。 
用 户 id 和 组 id。 






































控制 终端 ”Session 和 进程 组 。 





结构 体 的 指针 。 








进程 可 以 使 用 的 资源 上 限 (Resource Limit) 。 
































目前 读者 并 不 需要 理解 这 




















在 PCB 中 的 。 


fork 和 exec 是 本 章 要 介绍 的 两 个 重 
原来 的 进程 称 为 父 进 程 
Process) 。 系 统 中 同时 运行 着 很 多 进程 ， 
出 来 的 。 在 Shell 下 输入 命令 可 以 运行 
Val FA cork ‘jj 


个 新 进程 ， 






























































图 30.1. fork/exec 








些 作 








INS 





奶 的 细节 ， 在 随后 几 章 








1 讲 到 某 




















构 体 。 现 在 我 们 全 面 了 解 一 下 其 中 都 有 哪些 信息 。 





























类 























表示 ， 其 实 就 是 一 个 非 负 整 
























































要 的 系统 调用 。 


(Parent Process ) 























TIT 





























n 





个 程序 ， 是 因为 Shell 进 程 
同 出 一 个 新 的 Shell 进 程 ， 然 后 新 的 Shell 进 程 诡 


们 知道 一 个 程序 可 以 多 次 力 
口 运行 /bin/bash 5 另 一 方面 
如 在 Shell 提 示 符 下 输入 命令 1s ， 首 先 fork 创 
后 子 进程 调用 exec 执 行 新 的 程序 /bin/1s 5 vl 


建 子 进程 ， 
图 所 示 。 








fork B WE FH ZEE 
， 新 进程 














项 时 会 再 次 提醒 读 才 


是 保存 


[CS 

















恨 据 一 个 现 有 的 进程 复制 出 

















KATE (Child 





这 些 进 程 都 是 从 最 初 只 有 一 个 进程 开始 一 个 一 个 复制 
年 读 取 用 户 输入 的 命令 之 后 会 























这 时 子 进程 



































exec 执 行 新 的 程序 。 


成 为 同时 运行 的 多 个 进程 ， 
一 个 进程 在 调用 exec 前 后 也 可 以 分 别 执行 两 个 不 同 的 程序 ， 例 


例如 可 以 同时 开 多 个 终端 











仍 在 执行 /bin/bash 程 序 ; ER 





fork 
| ewe 上 n/bash as | 
L2 LI 


exec 


pe] E 














在 第 3 节 “open/close" 中 我 们 做 过 一 个 实验 : 用 umask 命 令 设 置 Shell 进 程 的 umask 掩 码 ， 然 后 运 
行程 序 a .out, 结 中 a.out 进程 的 umask 掩 人 码 也 和 Shell 进 程 一 样 。 现在 可 以 解释 了 ， 因为 a. out 进 
程 是 Shell 进 程 的 子 进程 ， 子 进程 的 PCB 是 根据 父 进程 复制 而 来 的 ， 所 以 其 中 的 umask 挤 码 也 和 父 
进程 人。 同样 道理 ， 子 进程 的 当 Bi. 前 工作 目录 也 和 父 进程 一 样 ， 所 以 我 们 可 以 用 ca 命令 改 

变 Shell 进 程 的 当前 目录 ， 然 后 用 1s 命 令 列 出 那个 目录 下 的 文件 ，1s 进 程 其 实 是 在 列 自己 的 当前 
目录 ， 而 不 是 Shell 进 程 的 当前 目录 ， 只 不 过 1s 进 程 的 当前 目录 正好 和 Shell 进 程 相同 。 看 一 个 例 
外 ， 子 进程 PCB 中 的 进程 id 和 父 进 程 是 不 同 的 。 
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2. 环境 变量 


先前 讲 过 ，exec 系 统 调用 执行 新 程序 时 会 把 命令 行 参数 和 环境 变量 表 传 递 给 main 函 数 ， 它 们 在 
整个 进程 地 址 空间 中 的 位 置 如 下 图 所 示 。 


图 30.2. 进程 地 址 空间 


) 命令 行 参 数 和 环境 变量 





堆 
未 初始 化 的 数据 } 由 exec 赋 初 值 0 
初始 化 的 数据 
exec 从 程序 文 忻 中 读 到 





和 命令 行 参 数 argv 类 似 ， 环 境 变 量 表 也 是 一 组 字符 串 ， 如 下 图 所 示 。 


图 30.3. 环境 变量 





environ} — HOME=/home/akaedu\0 
PATH=/usr/sbin:/usr/bin:/sbin:/bin\O 
SHELL=/bin/bash\0 











libc 中 定义 的 全 局 变量 envi ron 上 向 环境 变量 表 , envi ron 没 有 包含 在 任何 头 文件 中 " 所 以 在 使 用 
时 要 用 extern 声 明 o 例如 : 





例 30.1. 打印 环境 变量 


; #include <stdio.h> 


nase main (void) 


a 

extern char **environ; 

: ioe ip 

for(i=0; environ[i]!=NULL; i++) 

: printf("£sWMn", environ[i]); 
: return 0; 

Py 








执行 结果 为 








Mc eub: 

: SSH. AGENT. PID-5717 
i SHELL-/bin/bash 

: DESKTOP. STARTUP. ID- 
i TERM=xterm 












































由 于 父 进程 在 调用 forx 创 建 子 进程 时 会 把 自己 的 环境 变量 表 也 复制 给 子 进程 ， 所 以 a.out 打 印 的 
环境 变量 和 Shell 进 程 的 环境 变量 是 相同 的 。 
























































按照 惯例 ， 环境 变量 字符 串 都 是 name=value 这 样 的 形式 , 大 多 数 name 由 大 写字 母 加 下 划 线 组 
成 ,一般 把 name 的 部 分 叫做 环境 变量 ，value 的 部 分 则 是 环境 变量 的 值 。 环 境 变 量 定 义 了 进程 的 
运行 环境 ， 一 些 比较 重要 的 环境 变量 的 含义 如 下 : 


PATH 

































































可 执行 文件 的 搜索 路 径 。1s 命 令 也 是 一 个 程序 ， 执 行 它 不 需要 提供 完整 的 路 径 

名 /bin/ls， 然 而 通 稍 我 们 执行 当前 目录 下 的 程序 a.out 却 需要 提供 完整 的 路 径 名 ./a.onut , 
这 是 因为 paTH 环 境 变量 的 值 里 面包 含 了 1s 命 令 所 在 的 目录 /bin， 却 不 包含 a.out 所 在 的 目 
录 。PATH 环 境 变量 的 值 可 以 包含 多 个 目录 ， 用 :号 隔 开 。 在 Shell 中 用 echo 命 令 可 以 查看 这 
个 环境 变量 的 值 : 









































































































































ig echo $PATH 
: /usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/tsr/games 


SHELL 





当前 Shell， 它 的 值 通常 是 /bin/bash。 





TERM 























Me 














当前 终端 类 型 ， 在 图 形 界面 终端 下 它 的 值 通常 是 xzterm， 终 端 类 型 决定 了 一 些 程序 的 输出 
显示 方式 ， 比 如 图 形 界面 终端 可 以 显示 汉字 ， 而 字符 终端 一 般 不 行 。 


LANG 
语言 和 locale ， 决 定 了 字符 编码 以 及 时 间 、 货 币 等 信息 的 显示 格式 。 
HOME 


当前 用 户主 目录 的 路 径 ， 很 多 程序 需要 在 主 目录 下 保存 配置 文件 ， 使 得 每 个 用 户 在 运行 该 
程序 时 都 有 自己 的 一 套 配置 。 


用 environ 指 针 可 以 查看 所 有 环境 变量 字符 串 ， 但 是 不 够 方便 ， 如 果 给 出 name 要 在 环境 变量 表 中 






















































































































































































































































































uo 









































查找 它 对 应 的 value ， 可 以 用 setenv 函 数 。 





i #include <stdlib.h> 
i char *getenv(const char *name) ; 











getenv 的 返 回 值 是 指向 value 的 指针 , T AFR BN Anu o 
修改 环境 变量 可 以 用 以 下 函数 












































i #include <stdlib.h> 


me setenv(const char *name, const char *value, int rewrite); 
‘void unsetenv(const char *name); 








putenv/llsecenv PECES MGR IO, Ær hN EEO. 
setenv 将 环境 变量 name 的 值 设置 为 value。 如 果 已 存在 环境 变量 name ， 那 么 
。 右 rewrite 非 0， 则 窗 盖 原来 的 定义 ; 
。 右 rewrite 为 0， 则 不 和 窗 盖 原来 的 定义 ， 也 不 返回 错误 。 
unsetenv 删 除 name 的 定义 。 即 使 ame 没 有 定义 也 不 返回 错误 。 







































































例 30.2. 修改 环境 变量 


i #include <stdlib.h> 
: #include <stdio.h> 


: int main (void) 


i { 

: printf ("PATH=%s\n", getenv("PATH")); 
setenv ("PATH"， "hello", 1); 

: printf ("PATH=%s\n", getenv("PATH")); 
return 0; 

* 





: PATH-hello 
: $ echo $PATH 




















可 以 看 出 ，Shell 进 程 的 环境 变量 par8 传 给 了 a.out ， 然 后 a.out 修 改 了 paTH 的 值 ， 在 a.out 中 能 打 
印 出 修改 后 的 值 ， 但 在 Shell 进 程 中 partH 的 值 没 变 。 父 进程 创建 子 进程 时 会 复制 一 份 环境 变量 
给 子 进 程 ， 但 此 后 二 者 的 环境 变量 互 不 影响 。 



































































































































3. 进程 控制 
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3. 进程 控制 


3.1. fork Žž% 


: #include <sys/types.h> 
: #include <unistd.h> 


| pid t fork (void); 
































r 
tH 




















fork 调 用 失败 则 返回 -1， 调 用 成 功 的 返回 值 见 下 面 的 解释 。 我 们 通过 一 个 例子 来 理解 fork 是 怎 
创建 新 进程 的 。 





























Lie 
Tr 








例 30.3. fork 


: #include <sys/types.h> 
: #include <unistd.h> 

: #include <stdio.h> 
ORG <—stdlib n 


: int main(void) 


B 

joahel ie joalels 

: char *message; 

i Lae mp 

| pid = sock) 

if (pid < 0) { 

: perror("fork failed"); 
: exit(1); 

i } 

if (pid == 0) { 

| message = "This is the child\n"; 
i n = 6; 

} else { 

i message = "This is the parent\n"; 
: n = 3; 

} 

: eomle m s Oe amh) f 

| printf (message); 

: sleep(1); 

! } 

: return 0; 

P] 





| This is the child 
:$ This is the child 
tnis ws the child 











个 和 


旦 序 的 运行 过 程 


. 父 进 程 每 打印 
(对 于 计算 机 来 说 1 秒 很 长 
息 就 睡眠 1 秒 ， 在 这 1 秒 期 i 








图 30.4. fork 


Parent 
int main() 


{ 
pid_t pid; 


如 下 图 所 示 。 


char *message; 


int n; 


pid = fork(); 


if (pid < 


perror("fork failed"); 


0) { 


exit(1); 





) 
if (pid == 0) { 


message = "This is the child*n"; 


n = 6; 
} else { 


message = "This is the parent^n"; 


n= 3; 


for(; n» 0; n--) 1 
printf (message); 











Child 

int main() 
pid_t pid; 
char *message 
int n; 
pid = fork(); 


if (pid < 0) 1 
perror("fork failed"); 
exit(1); 


) 

if (pid == 0) { 
message = "This is the child\n"; 
n = 6; 

} else { 
message = “This is the parent\n"; 
n = 3; 

} 

for(; n» 0; n--) { 
printf (message); 


















































sleep (1); sleep (1); 
ud mum 
} } 
. 父 进程 初始 化 。 
. 父 进程 调用 fork ， 这 是 一 个 系统 调用 ， 因 此 进入 内 核 。 
. 内 核 根 据 父 进程 复制 出 一 个 子 进程 ， 父 进程 和 子 进程 的 PCB 信 息 相 同 ， 用 户 态 代码 和 数据 





也 相同 。 因 此 ， 子 进程 现在 的 状态 看 起 来 和 父 进 程 一 样 ， 做 完了 初始 化 ， 刚 调用 了 forx 进 
入 内 核 ， 还 没有 从 内 核 返回 。 





调用 了 一 次 ) ， 此 外 系统 

















. 现在 有 两 个 一 模 一 样 的 进程 看 起 来 都 调用 了 fork 进 入 内 核 等 待 从 内 核 返 回 (实际 上 forx 只 




















! 还 有 很 多 别 的 进程 也 等 待 从 内 核 返 回 。 是 父 进程 先 返 回 还 是 子 


























进程 先 返 回 ， 还 是 这 两 个 进程 都 等 待 ， 先 去 调度 执行 别 的 进程 ， 这 都 不 一 定 ， 取 决 于 内 核 





的 调度 算法 。 




















的 返回 值 是 子 进 程 的 id , 


X^, 打印 "This 











的 返回 值 是 0， 





. 如 果 某 个 时 刻 父 进程 被 调度 执行 了 ， 从 内 核 返 回 后 就 从 fork 函 数 返 回 ， 保 存在 变量 pia 
是 一 个 大 于 0 的 整数 ， 因 此 执 下 面 的 else 分 文 ， 然 后 执行 sor 循 



































is the parent\n" 三 次 之 后 终止 o 








.如 果 某 个 时 刻 子 进程 被 调度 执行 了 ， 从 内 核 返 回 后 就 从 fork 函 数 返 回 ， 保 存在 变量 pia 
因此 执行 下 面 的 if (pia == 0) 分 文 ， 然 后 执行 for 循 环 ， 打 印 "rhis is 












































the child\n" 六 次 之 后 终止 。fork 调 用 把 父 进程 的 数据 复制 一 份 给 子 进 程 ， 但 此 后 二 者 互 


影响， 在 这 个 例子 


值 ， 互 不 影响 。 





























，fork 调 用 之 后 父 进程 和 子 进程 的 变量 message 和 nm 被 赋予 不 同 的 
























































条 消 EH 
条 AUS 


vu 











E 卢 1 秒 ， 这 时 内 核 调度 别 的 进程 执行 ， 在 1 秒 这 么 长 的 间 际 里 























T) 子 进程 很 有 可 能 被 调度 到 。 同 样 地 ， 子 进程 每 打印 一 条 请 
司 父 进程 也 很 有 可 能 被 调度 到 。 所 以 程序 运行 的 结果 基本 上 是 父 







































































子 进 程 交替 打印 ， 但 这 也 不 是 一 定 的 ， 取 决 于 系统 中 其 它 
de An VLE ERE AP RUPEE BLAS 





zi 





























进程 的 运行 情况 和 内 核 的 调度 算 
RR。 男 外 ， 读 者 也 可 以 





























un GE 






























































1 

















= 


E 3.3 节 “wait 和 waitpid 函 数 "会 讲 到 这 种 等 竺 是 怎么 实现 的 ) ， 当 父 进程 
Rs QR NER 于 是 打印 Shell 提 示 符 ， 而 事实 上 子 进程 这 时 还 没 
结束 ， 所 以 子 进程 的 消息 打印 到 了 Shell 提 示 符 后 面 。 最 后 光标 停 在 rhis is the chiiall] 


sleep (1) ; 去 掉 看 程序 的 运行 结果 如 何 。 
个 程序 是 在 Shell 下 运行 的 ， 因 此 Shell 进 程 是 父 进程 的 父 进程 。 父 进程 运行 时 Shell 进 在 



































































































































下 一 行 ， 这 时 用 户 仍然 可 以 敲 命 令 ， 即 使 命令 不 是 紧 跟 在 提示 符 后 面 ，Shell 也 能 正确 读 


取 。 


fork PKI 


















































数 的 特点 概括 起 来 就 是 “调用 一 次 ， 返 回 两 次 ”， 在 父 进程 中 调用 一 次 ， 在 父 进程 和 子 进程 






























































:各 返回 一 次 。 从 上 图 可 以 看 出 ， 一 开始 是 一 个 控制 流程 ， 调 用 forx 之 后 发 生 了 分 又 ， 变 成 两 








we 





控制 
































流程 ， 这 也 就 是 "fork”( 分 又 ) 这 个 名 字 的 由 来 了 。 子 进程 中 fork 的 返回 值 是 0， 而 父 进 




















程 中 sozk 的 返回 值 则 是 子 进 得 的 加 《从 根本 上 说 ozx 是 从 内 核 遂 回 的 ， 内 核 目 有 办 法 让 父 进程 和 
子 进 程 返回 不 同 的 值 ) ， 这 样 当 fork 哨 数 返 回 后 ,程序 员 可 以 根据 返回 值 的 不 同 让 父 进程 和 子 





















































进程 执行 不 同 的 代码 。 


fork 的 




















返回 值 这 样 规 定 是 有 道理 的 。fork 在 子 进程 中 返回 0， 子 进程 仍 可 以 调用 getpia 函 数 得 到 












































目 己 的 

















进程 id , 15, uJ LAD H getppia PA? BUF 导 到 父 进程 的 id。 在 父 进程 1 用 getpid 可 以 得 到 自己 的 


























进程 id , 





fork 的 
的 文件 
































然而 要 想得到 3 进程 的 id， 只 有 将 fork 的 返回 值 记 录 下 来 ， 别 无 它 法 。 


丸 一 个 特性 是 所 有 由 父 进程 打开 的 描述 符 都 被 复制 到 子 进程 中 。 父 、 子 进程 中 相同 编号 
描述 符 在 内 核 指向 同一 个 file 结 构 体 ， 也 就 是 说 ，file 结 构 体 的 引用 计数 要 增加 。 



























































































































































用 gab 调 试 多 进程 的 程序 会 遇 到 困难 ，gap 只 能 跟踪 一 个 进程 (默认 是 跟 踩 父 进 程 ，， 而 不 能 后 
时 跟 踩 多 个 进程 ， 但 可 以 设置 ggap 在 fork 之 后 跟踪 父 进 程 还 是 子 进 程 。 以 上 面 的 程序 为 例 : 




































































: $ gcc main.c -g 

: djkings@djkings-desktop:~$ gdb a.out 

: GNU gdb 6.8-debian 

: Copyright (C) 2008 Free Software Foundation, Inc. 

i License GPLv34: GNU GPL version 3 or later 

: <http://gnu.org/licenses/gpl.html> 

: This is free software: you are free to change and redistribute it. 
i: There is NO WARRANTY, to the extent permitted by law. Type "show 
: copying" 

|! and "show warranty" for details. 

: This GDB was configured as "i486-linux-gnu"... 





: (gdb) 1 
P2 #include <unistd.h> 
3 #include <stdio.h> 
4 #include <stdlib.h> 
5 
: 6 int main(void) 
:7 { 
8 joakCl 1E Nove 
m9 char *message; 
:10 dae me 
p 11 josbel e se@rele O 
: (gdb) 
P 112 if (pid<0O) { 
13 perror("fork failed"); 
p ia exit (1); 
: 15 } 
: 16 if(pid--0) { 
t 17 message = "This is the child\n"; 
18 n = 6; 
: 19 ) else { 
3210 message = "This is the parent n"; 
2 n= 3; 
: (gdb) b 17 


: Breakpoint 1 at 0x8048481: file main.c, line 17. 


i (gdb) set follow-fork-mode child 

: (gdb) r 

: Starting program: /home/djkings/a.out 
: This is the parent 

i [Switching to process 30725] 


| Breakpoint ik, meia O Gu Nasce es 
B 117 message = "This is the child\n"; 


i (gdb) This is the parent 
i This is the parent 





























set follow-fork-mode childfi Cit gdb tE fork FR TERE (set follow-fork-mode 
parent 则 是 跟踪 父 进程 ) ， 然 后 用 run 命令 ， 看 到 的 现象 是 父 进程 一 直 在 运行 ， 在 (gap) 提示 符 
下 打印 销 息 ， 而 子 进程 被 先前 设 的 断 点 打上 断 了 。 







































































3.2. exec 函数 











用 fork 创 建 子 进程 后 执行 的 是 和 父 进 程 相 同 的 程序 (但 有 可 能 执行 不 同 的 代码 分 文 ) ， 子 进 和 











1f 
HO 
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CECESECIS H] P exec HAART A “MEF > HAEE — exec KHA], AEEA E A 
RRR EEEF ER, MIET RH SERRAT. MH exec MERE, Hr 

















c 
























































以 调用 exec 前 后 该 进程 的 id 并 未 改变 。 




















其 实 有 


六 种 以 exec 开 头 的 函数 ， Sif fexec KZ: 

: #include <unistd.h> 

ne execl (const char *path, const char *arg, ...); 

SIDE execlp(const clarae onse Chan targ E SN 

i int execle(const char *path, const char *arg, ..., char *const 
: envp[1) ; 


: int execv (const char *path, char *const argv[]); 
' int execvp(const char *file, char *const argv[]); 
kaye execve (const char *path, char *const argv[], 
: envp[]); 


char *const 









































这 些 函 数 如 果 调 用 成 功 则 加 载 新 的 程序 从 启动 代码 开始 执行 ， 不 再 返回 ， 如 果 调 用 出 错 则 返回 - 


1， 所 以 exec 函 数 只 有 出 错 的 返回 值 而 没有 成 功 的 返回 值 。 






















































































这 些 函 数 原型 看 起 来 很 容易 混 ， 但 只 要 掌握 了 规律 就 很 好 记 。 不 带 字母 p (表示 path) Hexec i 





是 "ls 






































数 第 一 个 参数 必须 是 程序 的 相对 路 径 或 绝对 路 径 ， 例 如 "bin/ls" 或 "./a.out"， 而 不 能 




















或 "a.out"。 对 于 带 字 母 p 的 函数 : 



































© 如 果 参 数 中 包含 /， 则 将 其 视 为 路 径 名 。 


。 否则 视 为 不 带路 径 的 程序 名 ， 在 paTH 环 境 变 量 的 目录 列表 中 搜索 这 个 程序 。 










































































main 





对 于 以 e (表示 environment) £i éBJexecrEZk, A LE ier ENSE REA E , H 





























带 有 字母 | (表示 list) 的 exec 函 数 要 求 将 新 程序 的 每 个 命令 行 参 数 都 当 作 一 个 参数 传 给 它 ， 命 令 
行 参数 的 个 数 是 可 变 的 ， 因 此 函数 原型 中 有 的 最 后 一 个 可 变 参 数 应 该 是 wurr ， 

起 sentinel 的 作用 。 对 本 
数组 ， 然 后 将 该 数组 的 首 地 址 当 作 参数 传 给 它 ， 数 组 中 的 最 后 一 个 指针 也 应 该 是 wurr ， 就 




































































带 有 字母 v (表示 vector) 的 函数 ， 则 应 该 先 构 造 一 个 指向 各 参数 的 指针 










































































函数 的 argv 参 数 或 者 环境 变量 表 一 样 。 




































































他 。xec 函 数 仍 使 用 当前 的 环境 变量 表 执 行 新 程序 。 





exec 调 

















用 举例 如 下 : 


‘ char SOOMSIE scs cvs ro S Wao, 


: "pid, ppid, pgrp, session, tpgid, comm", NULL}; 
: char *const ps_envp[] ={"PATH=/bin:/usr/bin", "TERM=console", 




















: NULL); 

: execl("/bin/ps", "ps", "-o", "pid,ppid,pgrp,session,tpgid,comm", 
‘ NULL); 

: execv("/bin/ps", ps argv) - 

gexeciltem 5m SUED SE ou ne nson ee em 
; NULL, ps_envp) ; 

|! execve ("/bin/ps", ps_argv, ps envp); 

: execlp ("ps", ios, Wesel, le lm ol een ^ 

: NULL) 站 


i execvp ("ps", ps_argv); 


























事实 上 ， 只 有 execve 是 真正 的 系统 调用 , 其 它 五 个 洱 数 最 终 都 调用 execve， 所 以 execve 在 man 















































Wan, HERB Eman FABI. HERBS AAR AU ALATA e 





图 30.5. exec K Six 










EJERE FRA SSR JAYS SHE 
到 以 NULL 结 尾 到 WNULL 结 尾 到 LINULL 结 尾 
APSE ER HH Boer EIER HH 







依次 在 PATH 
环境 变量 指示 所 挡 向 的 当前 






的 各 目录 中 环境 变量 表 
EAE 


一 个 完整 的 例子 : 


| #include <unistd.h> 
i ?inelude <stdlaib n> 


| us main(void) 


id 


: execlp("ps", ocu Ue 

: "pid, ppid, pgrp, session, tpgid, comm", NULL) ; 
i perror ("exec ps"); 

exit (1); 








执行 此 程序 则 得 到 : 


PID PPID PGRP SESS TPGID COMMAND 
6614 6608 6614 6614 7199 bash 
YAO GGL Wis GGL WY jos 

































































竺 后 面 调用 perror 即 可 。 注意 竺 调用 execlp 时 传 了 两 个 "ps" 人 参数 ， 第 一 个 "ps" 是 程序 































































































的 argv[o] 取 到 这 个 参数 。 














调用 exec 后 ， 原 来 打开 的 文件 描述 符 仍然 是 打开 的 BI。 利 用 这 一 点 可 以 实现 /O 重 定向 。 先 看 一 





由 于 exec 函 数 只 有 错误 返回 值 ， 只 要 返回 了 一 定 是 出 错 了 ， 所 以 不 需要 判断 它 的 返回 值 ， 直 接 


名 ，execlp 国 数 要 在 parH 环 境 变 量 中 找到 这 个 程序 并 执行 它 ， 而 第 二 个 "ps" 是 第 一 个 命令 行 参 
RL, execlp 国 数 并 不 关心 它 的 值 ， 只 是 简单 地 把 它 传 给 ps 程序 ， ps 程序 可 以 通过 main 范 数 


























个 简单 的 例子 ， 把 标准 输入 转 成 大 写 然后 打印 到 标准 输出 : 





例 30.4. upper 


: /* upper.c */ 
: #include <stdio.h> 


Pint main (void) 


Py 

int ch; 

: while((ch = getchar()) != EOF) { 
putchar (toupper (ch) ); 

| } 

return 0; 

:] 











运行 结果 如 下 : 





: $ ./upper 

: hello THERE 

: HELLO THERE _ 
(fctr1-D# EOF ) 





: $ 























使 用 Shell 重 定向 : 


is cat file.txt 

i this ais} ee RS et MWer eosen 
/ene 

THES TES sum, (Ii, III Ge, aL EG PAIL, IMO) WR (CSD 

















Vi 






































希望 把 待 转换 的 文件 名 放 在 命令 行 参数 中 ， 而 不 是 借助 于 输入 重 定 向 ， 我 们 可 以 利 


























Hu 


























pper 程 序 的 现 有 功能 ， 再 写 一 个 包装 程序 wrapper。 


例 30.5. wrapper 


i /* wrapper.c */ 

: #include <unistd.h> 
: #include <stdlib.h> 
i #include <stdio.h> 
i #include «fcntl.h» 





ARNE main(int argc, char *argv[]) 
B4 
| meca, 
if (arge != 2) { 
fputs("usage: wrapper file\n", 
exit(1); 
} 
fd = open(argv[1], O RDONLY); 
ase (GECKO). 1 
perror ("open"); 
exit (1); 


} 

dup2 (fd, STDIN_FILENO) ; 

close (fd); 

exec MU UPPE rt UPPE ru NUT, 
perron ("exec ./upper"); 

exit(1); 




































































wrapper 程 序 将 命令 行 参数 当 作文 件 名 打开 ， 将 标准 输入 重 定向 到 这 个 文件 ， 然 后 调用 exec 执 
行 upper 程 序 ， 这 时 原来 打开 的 文件 描述 符 仍然 是 打开 的 ，upper 程 序 只 负责 从 标准 输入 读 入 字 
符 转 成 大 写 ， 并 不 关心 标准 输入 对 应 的 是 文件 还 是 终端 。 运 行 结果 如 下 : 

ey eee tac uu Ic ME 

| THIS IS THE FILE, FILE.TXT, IT IS ALL LOWER CASE. 





3.3. waittwaitpid 24 Zi 


一 个 进程 在 





Tey 


KENS ARMI UT 











E 2 








着 ， 内 核 





着 导致 该 进入 





























TRA 











释放 在 


户 空 间 4 



































保存 了 一 些 信 
TAIKAA 








LAN 


AUS 





























后 彻底 清 











为 Shell 是 它 的 


这 个 进程 





如 果 一 个 进程 





ASP A tet 
AV BL 


进程 清 








RF 


电 这 个 进程 。 


Eo 我 人 
父 进 程 ， 


当 它 终止 








时 








o 











: 如 果 
号 是 哪个 。 这 个 进程 的 父 


父 进程 尚未 调 











RAE 














分 配 的 内 存 ， 但 它 的 PCB 还 
腿 出 状态 ， RE BAIL 



































进程 可 以 调 








] 知 道 一 个 进程 的 退出 状态 可 以 在 Shell 














Shell 调 用 wait 或 waitpid 








Await Kwai 





已 经 终止 ， 但 是 它 的 
ER 











任何 




















用 wait 或 waitpid 获 取 这 些 信 
用 特殊 变量 s? 查 看 ， 


EAS? 


得 到 它 的 退出 状态 同时 彻底 清 































































































进程 在 刚 终 止 时 都 是 僵 




















理 




















为 ] 观察 到 全 





程 





THH 





week, 而 父 








b 


进程 既 不 终止 也 不 调 





mmj 进程 ， 














我 们 自己 
Hwait 清 



































FEFE, 


理子 进程 : 


itpi ate b 进行 清理 时 的 进程 状 
IE TDL F, 旱 尸 进程 都 立 


说 的 程序 ， 父 进程 fork 出 子 进 





















































i #include <unistd.h> 
ES 


' int main (void) 


a 


jgakel ic jenes (9 
if (pid<0) 4 
perror ("fork"); 
exit(1); 
} 
f(pid»0) { /* parent */ 
while(1); 


} 
/* child */ 
return 0; 





























STAT START TIME 
Ss 08:41 0:00 
R Magala eS 
Z 08:44 0:00 
R+ 08:59 0:00 


在 后 台 运 行 这 个 程序 ， 然 后 用 ps 命令 查看 

UO fam ei & 

e A 6130 

:$ ps u 

: USER PID $CPU %MEM VSZ RUSS) AP AEN, 
COMMAND 

; akaedu 6016 0.0 0.3 5724 3140 pts/0 

: bash 

: akaedu $41.90 97.2 0,0 1536 284 pts/0 

Noe 

i akaedu o1  Q50 (950 0 0 pts/0 

: [a.out] <defunct> 

: akaedu odios 940 (050 2620 1000 pts/0 

BIOS 














户 输 命令 。 现 在 Shell 是 位 于 前 台 的 ， 用 
输入 的 。 第 二 二 条 命令 ps u 是 在 前 台 运 行 





在 ./a.out 命 令 后 面 加 个 :表示 后 台 运 


























rt 

















Shell 不 等 待 这 个 进程 终止 就 立刻 打印 提示 符 并 等 待 
午 终端 的 输入 会 被 Shell 读 取 ， 后 台 进 程 是 
的 ， 在 此 期 间 Shell 进程 和 . /a.out PER 




















用 
读 不 到 终端 
旺 都 在 后 台 运 行 ， 等 


= 于 























flos u 命 令 结 























| 束 时 Shell 进 程 义 重 ; 



























































roud) 的 概念 。 








































































































































































































































































































































































































































































































































































































护 进程 将 会 进一步 解释 前 台 (Foreground) 和 后 台 (Backg 
父 进 程 的 pid 是 6130 ， 子 进程 是 僵尸 进程 ，pid 是 6131 ，ps 命 令 显 示 僵 尸 进程 的 状态 为 ?， 在 命令 
行 栏 还 显示 <defunct>。 
如 果 一 个 父 进程 终止 ， 而 它 的 子 进程 还 存在 (这 些 子 进程 或 者 仍 在 运行 ， 或 者 已 经 是 僵尸 进程 
T) ， 则 这 些 子 进程 的 父 进程 改 为 init 进 程 。init 是 系统 中 的 一 个 特殊 进程 ， 通常 程序 文件 
是 /sbin/init ， 进 程 d 是 1， 在 系统 启动 时 负责 启动 各 种 系统 服务 ， 之 后 就 负责 清理 子 进程 ， 只 
要 有 子 进程 终止 ， init 就 会 调 HHwait 函数 清理 它 。 
僵尸 进程 是 不 能 用 xil1 命 令 清除 掉 的 ， 因 为 xil1 命 令 只 是 用 来 终止 进程 的 ， 而 僵尸 进程 已 经 终 
止 了 。 思 考 一 下 ， 用 什么 办 法 可 以 清除 掉 僵 尸 进程 ? 
wait 和 waitpid 函 数 的 原型 是 : 
| 
i finclude <sys/wait.h> 
ipid t wait(int *status); 
: pid_t waitpid(pid_t pid, int *status, int options); 
E 8] FH o Dy YU [e E EE a Eid, 知 调用 出 错 则 返回 -1。 父 进程 调用 wait 或 waitpiad 时 可 能 
A. 
x 
。 [H3€ (如 果 它 的 所 有 子 进程 都 还 在 运行 ) 。 
。 带 子 进程 的 终止 信息 立即 返回 (如果 一 个 子 进 程 已 终止 ， 正 等 待 父 进 程 读 取 其 终止 信 
E) 
。 出 错 立 即 返回 (如 果 它 没有 任何 子 进程 )。 
这 两 个 函数 的 区 别 是 : 
。 如 果 父 进程 的 所 有 子 进程 都 还 在 运行 ， 调 用 wait 将 使 父 进程 阻塞 ， 而 调用 waitpid 时 如 果 
在 options 参 数 中 指定 woHaNc 可 以 使 父 进程 不 阻塞 而 立 V 即 返 回 0。 

° wait 等待 第 一 个 终止 的 子 进 FEFE, 而 waitpid 可 以 通 过 pig 参 ZA dg ES SH Hp 个 子 进 程 。 
可 见 ， 调 用 wait 和 waitpid 不 仅 可 以 获得 子 进程 的 终止 信息 ， 还 可 以 使 父 进程 阻塞 等 待 子 进程 终 
止 ， 起 到 进程 间 同 步 的 作用 。 如 果 参 数 status 不 是 空 指针 ， 则 子 进 程 的 终止 信息 各 通过 这 个 参数 
传 出 ， 如 果 只 是 为 了 同步 而 不 关心 子 进 程 的 终止 信息 ， 可 以 将 status 参 数 指定 为 NULL。 

例 30.6. waitpid 
a IS 0 
i #include «sys/wait.h» 
: #include <unistd.h> 
: #include <stdio.h> 
<stdlib.h> 


: #include 


| int main (void) 
B 


pid 
if (pid 


SLL le jeauele 
3E edis Or 


« 0) 


{ 


perror("fork failed"); 
exit (1); 


for (a = 3p a S Of a-—) Ff 
ES ang) the Classen) e 
sleep(1); 

} 

exit (3); 

} else { 

int stat_val; 

waitpid(pid, &stat_val, 0); 

if (WIFEXITED(stat val)) 
printf("Child exited with code 


: $d\n", WEXITSTATUS(stat val)); 


else if (WIFSIGNALED(stat val)) 


i printf("Child terminated 
: abnormally, signal %d\n", WTERMSIG (stat_val)); 
} 


return 0; 






































子 进程 的 终止 信 




















息 在 一 个 int 中 包含 了 多 个 字段 ， 用 宏 定义 可 以 取出 其 中 的 每 个 字段 : 如 果子 进 

























































































程 是 正常 终止 的 ，wizFgxITED 取 出 的 字段 值 非 零 ，mxiTrsrarus 取 出 的 字段 值 就 是 子 进程 的 退出 状 
AS; 如 果子 进程 是 收 到 信号 而 异常 终止 的 ，wIFsIGNALED 取 出 的 字段 值 ] 




















F 零 ，wrERMsIG 取 出 的 字 








































































































段 值 就 是 信号 的 编写。 作为 练习 ， 请 读者 从 头 文件 里 查 一 下 这 些 宏 做 了 什么 运算 ， 是 如 何 取出 











字段 值 的 。 











习题 











1、 请 读者 修改 例 30.6 “waitpid* 的 代码 和 实验 条 件 








输出 。 





: 





使 它 产生 “Child terminated abnormally”) 























[35] 事实 上 ， 在 每 个 文件 描述 符 I 有 一 个 close-on-exec 标 志 ， 如 果 该 标志 为 1， 则 调用 exec 时 关 








闭 这 个 文件 描述 
况 。 


eas 


2. 环境 变量 





























js 符 。 该 标志 默认 为 0， 可 以 用 fcnt1 函 数 将 它 置 1， 本 书 不 讨论 该 标志 为 1 的 情 





up pr 
进程 间 ; 通信 


4. 进程 间 通 信 





第 30 章 进程 


进程 间 通 信 


每 个 进程 各 目 有 不 同 的 用 户 地 址 空间 ， 任 何 一 个 进程 的 全 局 变量 在 另 一 个 进程 中 都 看 不 到 ， 所 
以 进程 之 间 要 交换 数据 必须 通过 内 核 ， 在 内 核 中 开辟 一 块 缓冲 区 ， 进 程 1 把 数据 从 用 户 空间 找到 
内 核 缓冲 区 ， 进 程 2 再 从 内 核 缓 冲 区 把 数据 读 走 ， 内 核 提 供 的 这 文 种 机 制 称 为 进程 间 通 信 
(IPC, InterProcess Communication) 。 如 下 图 所 示 。 










































































































































































图 30.6. 进程 间 通 信 








00000000 


co000000 





ffffffff 











管道 是 一 种 最 基本 的 IPC 机 制 ， 由 pipe 函 数 创 建 


i #include <unistd.h> 








i int pipe(int filedes[2]); 























V FAlpipe BK 数 时 在 内 核 中 开辟 一 块 缓冲 区 〈 称 为 管道 ) 用 于 通信 ， 它 有 一 个 读 端 一 个 写 端 ， 然 
后 通过 fileqes 参 数 传 出 给 用 户 程 序 两 个 文件 描述 符 ，filedes [0] 指向 管道 的 读 

A. filedes[1] 指 向 管道 的 写 端 (很 好 记 ， 就 像 0 是 标准 输入 1 是 标准 输出 一 样 ) 。 所 以 管道 在 
用 户 程序 看 起 来 就 像 一 个 打开 的 文件 ， 通 过 zeaaq(filedes[0]); write (filedes[1]); 问 这 个 
文件 读 写 数据 其 实 是 在 读 写 内 核 缓冲 区 。pipe 函 数 调用 成 功 返 回 9， 调 用 失败 返回 -1。 


开辟 了 管道 之 后 如 何 实现 两 个 进程 间 的 通信 呢 ? 比 如 可 以 按 下 面 的 步骤 通信 。 
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图 30.7. 管道 


1. 他 进程 他 三 管道 





. 父 进程 调用 pipe 开 辟 管 道 ， 得 到 两 个 文件 描述 符 指向 管道 的 两 端 。 























. 父 进 程 调用 forxk 创 建 子 进程 ， 那么 子 进 程 也 有 两 个 文件 描述 符 指向 同一 管道 。 





Y 


. 父 进程 关闭 管道 读 端 ， 子 进程 关闭 管道 写 端 。 父 进程 可 以 往 管道 里 写 ， 子 进程 可 以 从 管道 
里 读 ， 管 道 是 用 环形 队列 实现 的 ， 数 据 从 写 端 流入 从 读 端 流出 ， 这 样 就 实现 了 进程 间 通 










































































| #include <stdlib.h> 
i #include <unistd.h> 
: #define MAXLINE 80 


| int main(void) 
Bt 
P alo jag 

alouE, Gl [2S 

joakgl 1E. sel 

char line[MAXLINE]; 


if (pipe(fd) < 0) { 
perror ("pipe"); 
exit (1); 


} 

if ((pid = fork()) < 0) { 
perror ("fork"); 
exit (1); 


} 

ase (oic > (0) 1 /5* parene **/ 
close(fd[0]); 
write(fd[1], "hello world\n", 12); 
wait (NULL); 

} else { /* child */ 
close(fd[1]); 
n = read(fd[0], line, MAXLINE); 
write(STDOUT FILENO, line, n); 


} 


return 0; 








使 用 管道 有 一 些 限 


。 两 个 进程 通过 一 个 管道 只 能 实现 单 向 通信 ， 比 如 上 面 的 例子 ， 父 进程 写 子 进程 读 ， 如 果 有 

时 候 也 需要 子 进程 写 父 进程 读 ， 就 必须 另 开 一 个 管道 。 请 读者 思考 ， 如 果 只 开 一 个 管道 ， 
但 是 父 进程 不 关闭 读 问 ， 子 进程 也 不 关闭 写 问 ， 双 方 都 有 读 端 和 写 端 ， 为 什么 不 能 实现 双 
向 通信 ? 
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道 的 读 写 端 通过 打开 的 文件 描述 符 来 传递 ， 因 此 要 通信 的 两 个 进程 必须 从 它们 的 公共 福 
那里 继承 管道 文件 描述 符 。 上 面 的 例子 是 父 进程 把 文件 描述 符 传 给 子 进程 之 后 父子 进程 


间 通 信 ， 也 可 以 父 进程 fork 两 次 ， 把 文件 描述 符 传 给 两 个 子 进程 ， 然 后 两 个 子 进 程 之 间 













































































言 ， 总 之 需要 通过 forx 传 递 文件 描述 符 使 两 个 进程 都 能 访问 同一 管道 ， 它 们 才能 通信 。 
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使 用 管道 需要 注意 以 下 4 种 特殊 情况 (假设 都 是 阻塞 VO 操 作 ， 没 有 设置 NoNBLocK 标 志 ) : 
































1. 如 果 所 有 指向 管道 写 端的 文件 描述 符 都 关闭 了 (管道 写 端的 引用 计数 等 于 0) ， 而 仍然 有 
进程 从 管道 的 读 端 读数 据 ， 那 么 管 让 中 剩余 的 数据 都 被 读 取 后 ， 再 次 reaq 会 返回 0， 就 像 
读 到 文件 末尾 一 样 。 










































































2. 如 果 有 指向 管道 写 端 的 文件 描述 符 没 关闭 〈 管 道 写 端的 引用 计数 大 于 0) ， 而 持 有 管道 写 
端的 进程 也 没有 向 管道 中 写 数 据 ， 这 时 有 进程 从 管道 读 端 读数 据 ， 那 么 管道 中 剩余 的 数据 
都 被 读 取 后 ， 再 次 reaq 会 阻 显 ， 直 到 管道 中 有 数据 可 读 了 才 读 取 数 据 并 返回 。 























































































































1 果 所 有 指向 管道 读 端 的 文件 描述 答 都 关闭 了 (管道 读 端 的 引用 计数 等 于 0) ， 这 时 有 进 
组 向 管道 的 写 端 write ， 那 么 该 进程 会 收 到 信号 srcprpz， 通 常会 导致 进程 异常 终止。 


在 第 33 音 信和 号 会 讲 到 怎样 使 szcpripg 信 和 号 不 终止 进程 。 






























































4. 如 果 有 指 问 管道 读 端 的 文件 描述 符 没 关闭 (管道 读 端 的 引用 计数 大 于 0) ， 而 持 有 管道 读 
闯 的 进程 也 没有 从 管道 中 读数 据 ， 这 时 有 进程 向 管道 写 端 写 数据 ， 那 么 在 管道 被 写 满 时 再 
次 write 会 阻塞 ， 直 到 管道 中 有 空位 置 了 才 写 入 数据 并 返回 。 
















































































^ 













































































管道 的 这 四 种 特殊 情况 具有 普遍 意义 。 在 第 37 3€ sockeil 编 程 要 讲 的 TCP socket 也 具有 管道 的 
这 些 特性 。 
习题 



































1、 在 例 30.7 “管道 "中 ， 父 进程 只 用 到 写 端 ， 因 而 把 读 端 关闭 ， 子 进程 只 用 到 读 端 ， 因 而 把 写 端 





















































关闭 ， 然 后 互相 通信 ， 不 使 用 的 读 端 或 写 端 必须 关闭 ， 请 读者 想 一 想 如 果 不 关 闭会 有 什么 回 





























2、 请 读者 修改 例 30.7“ 管 道 " 的 代码 和 实验 条 件 ， 验 证 我 上 面 所 说 的 四 种 特殊 情况 。 
































4.2. 其 它 IPC 机 制 





















































进程 间 通 信 必 须 通过 内 核 提 供 的 通道 ， 而 且 必 须 有 一 种 办 法 在 进程 中 标识 内 核 提 供 的 某 个 通 
道 ， 上 一 节 讲 的 管道 是 用 打开 的 文件 描述 符 来 标识 的 。 如 果 要 互相 通信 的 几 个 进程 没有 从 公共 
















































































先 那里 继承 文件 描述 符 ， 它 们 怎么 通信 呢 ”内 核 提供 一 条 通道 不 成 问题 ， 问 题 是 如 何 标识 这 
条 通道 才能 使 各 进程 都 可 以 访问 它 ? 文件 系统 中 的 路 径 名 是 全 局 的 ， 各 进程 都 可 以 访问 ， 因 此 
可 以 用 文件 系统 中 的 路 径 名 来 标识 一 个 IPC 通 道 。 


FIFO 和 Unix Domain Socket 这 两 种 IPC 机 制 都 是 利用 文件 系统 中 的 特殊 文件 来 标识 的 。 可 以 
用 mxkfifo 命 令 创建 一 个 FIFO 文 件 : 











































































































:$ mkfifo hello 
ne 
i prw-r--r-- 1 djkings djkings 0 2008-10-30 10:44 hello 














FIFO 文 件 在 磁盘 上 没有 数据 块 ， 仅 用 来 标识 内 核 中 的 一 条 通道 ， 各 进程 可 以 打开 这 个 文件 进 
{Tread/write, 实际 上 是 在 读 写 内 核 通道 (根本 原因 在 于 这 个 file 结 构 体 所 指向 

的 read、write 孙 数 和 常规 文件 不 一 样 ) ， 这 样 就 实现 了 进程 间 通 信 。Unix Domain 
Socket 和 FIFO 的 原理 类 似 ， 也 需要 一 个 特殊 的 socket 文 件 来 标识 内 核 中 的 通道 ， 例 

如 /var/run 目 录 下 有 很 多 系统 服务 的 socket 文 件 : 


Ns les /nye un 






































































































































total 52 

|! Srw-rw-rw- 1 root root 9 2006=1L0=30 (00) 8 22 

i acpid.socket 

| srw-rw-rw- 1 root root 0 2008-10-30 00:25 

: gàm socket 

| srw-rw-rw- 1 root root 9 2006-10-30 (08924 gelo 
| srwxr-xr-x 1 root root 0 2008-10-30 00:42 








i synaptic.socket 




















文件 类 型 s 表 示 socket， 这 些 文件 在 磁盘 上 也 没有 数据 块 。UNIX Domain Socket 是 目前 最 广泛 
使 用 的 IPC 机 制 ， 到 后 面 讲 socket 编 程 时 再 详细 介绍 。 


现在 把 进程 之 间 传 递 信息 的 各 种 途径 (包括 各 种 IPC 机 制 ) 总 结 如 下 : 
。 父 进程 通过 fork 可 以 将 打开 文件 的 描述 符 传递 给 子 进 程 
。 子 进程 结束 时 ， 父 进程 调用 wait 可 以 得 到 子 进程 的 终止 信息 
。 几 个 进程 可 以 在 文件 系统 中 读 写 茶 个 共 孕 文件， 也 可 以 通过 给 文件 加 锁 来 实现 进程 间 同 步 


。 进程 之 间 互 发 信号 ， 一 般 使 用 srcusR1 和 sicusR2 实 现 用 户 目 定 义 功 能 
fe^; 
































































































































































































































e mmap Ãžt, JLM EEN] LABRET] — ATE EC 


e SYS VIPC， 以 前 的 SYS V UNIX 系统 实现 的 IPC 机 制 ， 包 括 消息 队列 、 信 和 号 量 和 共享 内 
存 ， 现 在 已 经 基本 废弃 


e UNIX Domain Socket， 目 前 最 广泛 使 用 的 IPC 机 制 





5. 练习 : 实现 简单 的 Shell 
用 讲 过 的 各 种 C 函 数 实 现 一 个 简单 的 交互 式 Shell， 要 求 : 


1、 给 出 提示 符 ， 让 用 户 输入 一 行 命令 ， 识 别 程序 名 和 参数 并 调用 适当 的 exec 函 数 执行 程序 ， 待 
执行 完成 后 再 次 给 出 提示 符 。 


2、 识 别 和 处 理 以 下 符号 : 
。 简单 的 标准 输入 输出 重 定 向 (< 和 >) : 仿照 例 30.5“wrapper"， 先 qup2 然 后 exec。 
。 管道 (|) : Shell 进 程 先 调用 pipe 创 建 一 对 管道 描述 符 ， 然 后 foerk 出 两 个 子 进程 ， 一 个 子 
进程 关闭 读 端 ， 调 用 aup2z 把 写 端 赋 给 标准 输出 ， 另 一 个 子 进程 关闭 写 端 ， 调 用 aupz 把 读 端 
赋 给 标准 输入 ， 两 个 子 进程 分 别 调用 exec 执 行程 序 ， 而 Shell 进 程 把 管道 的 两 端 都 关闭 ， 调 
用 wait 等 待 两 个 子 进程 终止 。 


你 的 程序 应 该 可 以 处 理 以 下 命令 : 








ols 作 -| 人 -Ro>ofile1o 
ocato«ofile1o|owc A-co>ofile1o 
o 表 示 零 个 或 多 个 空格 ， 人 表示 一 个 或 多 个 空格 
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4 ET NETS 


























4. bash naif 


4.1. 作为 交互 登录 Shell á 或 者 使 用 --login 参 数 启 亏 
4.2. 以 交互 非 登 录 Shell 
4.3. JE%e 5 




















5. Shell 脚 本 语法 








5.1. 条 件 测试 : test 








5.2. if/then/elif/else/fi 

5.3. case/esac 

5.4. for/do/done 

5.5. while/do/done 
DETENER 








qm 
5. 练习 : 实现 简单 的 Shell 1. Shell 的 历史 





1. Shell 的 历史 
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1. Shell 的 历史 

Shell 的 作用 是 解释 执行 用 户 的 命令 ， 用 户 输入 一 条 命令 ，Shell 就 解释 执行 一 条 ， 这 种 方式 称 为 
交互 式 (Interactive) ，Shell 还 有 一 种 执行 命令 的 方式 称 为 批 处 理 (Batch) ， ia ca 
个 Shell 脚 本 (Script) ， 其 中 有 很 多 条 命令 ， 让 Shell 一 次 把 这 些 命令 执行 完 ， 而 不 必 一 条 一 条 
地 敲 命 令 。Shell 脚 本 和 编程 语言 很 相似 ， 也 有 变 量 和 流程 控制 语句 ， 但 Shell 脚 本 是 解释 执行 
的 ， 不 需要 编译 ，Shell 程 序 从 脚本 中 一 行 一 行 读 取 并 执行 这 些 命令 ， 相 当 于 一 个 用 户 把 脚本 中 














的 命令 一 行 一 行 敲 到 Shell 提 示 符 下 执行 。 
由 于 历史 原因 ，UNIX 系 统 上 有 很 多 种 Shell: 
由 Steve Bourne 开 发 ， 





1. sh (Bourne Shell) : 


2. csh (C Shell) : 
FRL Bourne Shell 所 不 支持 的 功能 : 作业 

3. ksh (Korn Shell) : 
能 ， 是 目前 很 多 UNIX 系 统 标准 配置 的 Shell， 
符号 链接 。 


4. tcsh (TENEX C Shell) 


























5. bash (Bourne Again Shell) : 



































的 Shell， 
此 ，bash 和 sh 还 是 有 很 多 不 同 的 ， 


Ij 


























各 种 UNIX 系 统 都 配 有 sh。 











由 Bill Joy 开 发 ， 随 BSD UNIX 发 布 ， 它 的 流程 控制 语句 很 像 C 语 言 ， 支 
空 制 ， 


由 David Korn 开 发 ， 向 后 兼容 sh 的 功能 











命令 历史 ， 


命令 行 编辑 。 


， 并 且 添 加 了 csh 引 入 的 新 功 




















在 这 些 系 统 上 /bin/sh 往 往 是 指向 /bin/ksh 的 








: 是 csh 的 增强 版 本 ， 引 入 了 命令 补 全 等 功能 ， 
在 FreeBSD、Mac OS X 等 系统 上 替代 了 csnh。 


由 GNU 开 发 的 Shell， 
同时 兼顾 对 sh 的 兼容 ， bash 从 csh 和 ksnh 借 鉴 了 很 多 功能 ， 是 各 种 Linux 发 行 版 标准 配置 
在 Linux 系 统 上 /binysh 往 往 是 指向 /bin/bash 的 符号 链接 [36]。 

一 方面 ， 扩展 了 一 些 命令 和 参数 ， 























主要 目标 是 与 POSIX 标 准 保持 一 致 ， 











虽然 如 
另 一 方 

















面 ，bash 并 不 完全 和 sh 兼容 ， 有 些 行为 并 不 一 



































致 ， 所 以 bash 需 要 模拟 sh 的 行为 : 当 我 们 通 











过 sh 这 个 程序 名 启动 pashn 时 ， bash 可 以 假装 





自己 是 sn ， 不 认 扩 展 的 命令 ， 并 且 行 为 与 sh 保 











持 一 致 。 

















文件 /etc/shells 给 出 了 系统 
有 很 多 变种 。 





i # /etc/shells: 
: /bin/csh 

: /bin/sh 

: /usr/bin/es 

: /usr/bin/ksh 

: /bin/ksh 

: /usr/bin/rce 

| usr/bin/tesh 
: /bin/tcsh 

: /usr/bin/esh 

: /bin/dash 

: /bin/bash 

: /bin/rbash 

: /usr/bin/screen 


valid login shells 


! 所 有 已 知 (不 一 定 已 安装 ) 的 Shell， 





除了 上 面 提 到 的 Shell 之 外 还 























HJ 的 默认 Shell 设 置 在 /etc/pas swd 文 件 














'， 例 如 下 面 这 行 对 用 











户 mia 的 设置 : 








i mia:L2NOfqdlPrHwE:504:504:Mia Maya:/home/mia:/bin/bash 









































用 户 mia 从 字符 终端 登录 或 者 打开 图 形 终端 窗口 时 就 会 目 动 执行 /bin/bash。 如 采 要 切换 到 其 
它 Shell， 可 以 在 命令 行 输入 程序 名 ， 例 如 : 
~$ sh (在 bash 提 示 符 下 输入 sh 命令 ) 
: $ (出 现 sh 的 提示 符 ) 
【CE d 或 者 输入 exit 命 令 ) 
: ~$ ( 回 到 bash 提 示 符 ) 







































































a> 
> 
pug 




















会 退出 登录 或 者 关闭 图 形 终端 窗口 ) 





























: ~$ (再 次 按 ctr1-d 或 者 输入 exit 命 4 



























































本 章 只 介绍 bash 和 sn 的 用 法 和 相关 语法 ， 不 介绍 其 它 Shell。 所 以 下 文 提 到 Shell 都 是 
指 bash 或 sh。 














[36] 最 新 的 发 行 版 有 一 些 变化 ， 例 如 Ubuntu 7.10 的 /binysh 是 指向 /pin/aash 的 符号 链 
BE, dash 也 是 一 种 类 似 pash 的 Shell。 








ig ls /bin/sh /bin/dash -1 
: -rwxr-xr-x 1 root root 79988 2008-03-12 19:22 /bin/dash 
: lrwxrwxrwx 1 root root 4 2008-07-04 05:58 /bin/sh -> dash 
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2. Shell 如 何 执行 命令 
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2. Shell 如 何 执行 命令 

2.1. 执行 交互 式 命 令 

用 户 在 命令 行 输入 命令 后 ， 一 般 情 况 下 Shell 会 fork 并 exec 该 命令 ， 但 是 Shell 的 内 建 命令 例外 ， 
执行 内 建 命令 相当 于 调用 Shell 进 程 中 的 一 个 函数 ， 并 不 创建 新 的 进程 。 以 前 学 过 


的 ca、 alias, umask, exit 等 命令 即 是 内 建 命令 凡是 用 which 命 令 查 不 到 程序 文件 所 在 位 置 的 
命令 都 是 内 建 命令 ， 内 建 命令 没有 单独 的 man 手 册 ， 要 在 man 手 册 中 查看 内 建 命令 ， 应 该 






































































































































: $ man bash-builtins 





本 节 会 介绍 很 多 内 建 命令 ， 如 export、shift、if、eval、[、for、while 等 等 。 内 建 命令 虽然 
不 创建 新 的 进程 ， 但 也 会 有 Exit Status ， 通 常 也 用 0 表示 成 功 非 零 表示 失败 ， 虽 然 内 建 命令 不 创 
建新 的 进程 ， 但 执行 结束 后 也 会 有 一 个 状态 码 ， 也 可 以 用 特殊 变量 s? 读 出 。 












































习题 


























1、 在 完成 第 5 节 “ 练 习 : 实现 简单 的 Shel" 时 也 许 有 的 读者 已 经 试 过 了 ， 在 自己 实现 的 Shell 
AR E 执 行 ca 命令 ， ae 没有 程序 文件 ， 不 外 用 exec 执 行 。 现在 请 完善 该 程 
序 ， 实 现 ca 命 令 的 功能 ， 用 cnair (2) 函数 可 以 改变 进程 的 当前 工作 目录 。 


2、 思 考 一 下 ， 为 什么 ca 命令 要 实现 成 内 建 命令 ?可 不 可 以 实现 一 个 独立 的 ca 程序 ， 例 
如 /bin/cd， 就 像 /bin/1s 一 样 ? 


2.2. 执行 脚本 
首先 编写 一 个 简单 的 脚本 ， 保存 为 script. sh: 





























































































































例 31.1. 简单 的 Shell 脚 本 


i #! /bin/sh 


E El os 
ms 


























Shell 脚 本 中 用 # 表 示 注 释 ， 相 当 于 C 语 言 的 /7 注释。 但 如 果 # 位 于 第 一 行 开 头 ， 并 且 是 #! ( 称 
为 Shebang) 则 例外 ， 它 表示 该 脚本 使 用 后 面 指定 的 解释 器 /binysh 解 释 执 行 。 如 果 把 这 个 脚本 
文件 加 上 可 执行 权限 然后 执行 : 
















































































: $ chmod +x script.sh 
o scnupE sh 





















































Shell 会 fork 个 子 进程 并 调用 exec 执 行 ./script .sh 这 个 程序 ， exec 系 统 调用 应 该 把 了 进程 的 代 

















TU BERTA EX. /script.sh 程 序 的 代码 段 ， 并 从 它 的 _start 开 始 执行 。 然而 script .sh 是 个 文本 文 
件 ， 根 本 没有 代码 段 和 _start 消 数 ， 怎 么 办 呢 ? 其 实 exec 还 有 男 外 一 种 机 制 ， 如 果 要 执行 的 是 
一 个 文本 文件 ， 并 且 第 一 行 用 Shebang 指 定 了 解释 器 ， 则 用 解释 器 程序 的 代码 段 蔡 换 当 前 进 
程 ， 并 且 从 解释 器 的 _start 开 始 执 行 ， 而 这 个 文本 文件 被 当 作 命 令 行 参数 传 给 解释 器 。 因 此 ， 
执行 上 述 脚本 相当 于 执行 程序 



























































































































































以 这 种 方式 执行 不 需要 script .sh 文件 具有 可 执行 权限 。 再 举 个 例子 ， 比 如 某 个 sea 脚 本 的 文 作 
名 是 script ， 它 的 开头 是 








Iu 


























执行 ./script 相 当 于 执行 程序 





/bin/sed -f ./script.sh 










/srs 
SO 














这 两 种 方法 本 质 上 是 一 样 的 ， 执行 上 述 脚 本 的 步 又 为 : 


图 31.1. Shell 脚 本 的 执行 过 程 


fork 
1. exec 


wait 
bash sh 
cwd: /home/akaedu cwd: /home/akaedu 
bash wait sh cd .. 
cwd: /home/akaedu cwd: /home 
fork 


exec 


, wait 
bash wait sh Is 
cwd: /home/akaedu cwd: /home cwd: /home 





bash wait sh EOF 
cwd: /home/akaedu cwd: /home 


1. 交互 Shell (bash ) fork/exec 一 个 子 Shell (sh) 用 于 执行 脚本 ， 父 进程 bash 等 待 子 进 
程 sh 终止 。 















































2. sh 读 取 脚本 中 的 ca . .命令 ,调用 相应 的 函数 执行 内 建 命令 ， 改 变 当前 工作 目录 为 上 一 级 
目录 。 


3. sh 读 取 脚本 的 1s 命 令 ， fork/exec 这 个 程序 ， 列 出 当前 作 目 录 下 的 文件 ， sh fFlsź 终 
止 。 









































4. 1s 终 止 后 ， sh 继续 执行 ， 读 到 脚本 文件 末尾 ， sh 终止 。 
5. sh 终止 后 ，bash 继 续 执 行 ， 打印 提示 符 等 待 用 户 输入 。 


如 果 将 命令 行 下 输入 的 命令 用 () 括 号 括 起 来 ， 那 么 也 会 fork 出 一 个 子 Shell 执 行 小 括号 中 的 命 
令 ， 一 行 中 可 以 输入 由 分 号 ; 隔 开 的 多 个 命令 ， 比 如 ; 







































































和 上 面 两 种 方法 执行 Shell 脚 本 的 效果 是 相同 的 ，ca . .命令 改变 的 是 子 Shell 的 Pwp ， 而 不 会 影响 
到 交互 式 Shell。 然 而 命令 














则 有 不 同 的 效果 ，ca . .命令 是 直接 在 交互 式 Shell 下 执行 的 ， 改 变 交 互 式 Shell 的 pwp ， 然 而 这 种 
方式 相当 于 这 样 执行 Shell 脚 本 : 





























全 SET 




















source 或 者 . 命令 是 Shell 的 内 建 命令 ， 这 种 方式 也 不 会 创建 子 Shell， 而 是 直接 在 交互 式 Shell 下 
逐 行 执行 脚本 中 的 命令 。 



































Jill 


1、 解 释 如 下 命令 的 执行 过 程 : 


| BS (exit 2) 
E Econo 
L2 
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3. Shell 的 基本 语法 
3.1. 变量 




















按照 惯例 ，Shell 变 量 由 全 大 写字 母 加 下 划 线 组 成 ， 有 两 种 类 型 的 Shell 变 量 : 


环境 变量 


























在 演变 量 " 中 讲 过 ， 环 境 变量 可 以 从 父 进程 传 给 子 进 程 ， 因 此 Shell 进 程 的 环境 变 
量 可 以 从 当前 BY Shell 进程 传 给 fork 出 来 的 子 进程 。 用 printenv 命 fi 令 可 以 显示 当前 BY Shell 进程 
的 环境 \ 境 变量 。 

本 地 变量 
只 存在 于 当前 Shell 进 程 ， 用 set 命 令 可 以 显示 当前 Shell 进 程 中 定义 的 所 有 变量 (包括 本 
变量 和 环境 变量 ) 和 函数 。 


a 境 变量 是 任何 进程 都 有 的 概念 ， 而 本 地 变量 是 Shell 特 有 的 概念 。 在 Shell 
变量 的 定义 和 用 兴 相 似 。 在 Shell 中 定义 或 赋值 一 个 变量 : 




































































{a 



































， 环 境 变 量 和 本 地 















































: $ VARNAME=value 

















注意 等 号 两 边 都 不 能 有 空格 ， 否 则 会 被 Shell 解 释 成 命令 和 命令 行 参数 。 


个 变量 定义 后 仪 存在 于 当前 Shell 进 程 ， 它 是 本 地 变量 ， 用 export 命 令 可 以 把 本 地 变量 导出 为 
环境 变量 ， 定 义 和 导 出 环境 变量 通常 可 以 一 步 完 成 : 
















































































: $ export VARNAME=value 





也 可 以 分 两 步 完 成 


i $ VARNAME-value 
: $ export VARNAME 














用 unset 命 令 可 以 删除 已 定义 的 环境 变量 或 本 地 变量 。 


























如 果 oe Fas varname} 可 以 表示 它 的 值 ， 在 不 引起 歧义 的 情况 下 也 可 以 
用 svaRNAME 表 示 它 的 值 。 通 过 以 下 例子 比较 这 两 种 表示 法 的 不 同 : 













































































echo ${SHELL}abc 





$ $ C Shell 



























































注意 ， 在 定义 变量 时 不 用 ， 取 变量 值 时 要 用 。 和 语言 不 同 的 是 ， 变量 不 需要 明确 定义 
类 型 ， 事 实 上 Shell 变 量 的 值 都 是 字符 串 ， 比 如 我 们 定义 vaR=45， 其 实 vaRg 的 值 是 字符 串 45 而 非 整 
数 。Shell 变 量 不 需要 先 定义 后 使 用 ， 如 果 对 一 个 没有 定义 的 变量 取 值 ， 则 值 为 空 字 符 串 。 


3.2. 文件 名 代 换 (Globbing) : * ? [] 

































































E 


































































































>q 









































这 些 用 于 匹配 的 字符 称 为 通配符 (Wildcard) ， 具 体 如 下 : 


表 31.1. 通配符 


E TEROTAET IEEE 
2 ME MEEK 























PE ee 








ls /dev/ttyS* 

lis; «lo oe 

ssa 2 doe 

les «lou ROMs at tO Ree 




















注意 ，Globbing 所 匹配 的 文件 名 是 由 Shell 展 开 的 ， 也 就 是 说 在 参数 还 没 传 给 程序 之 前 已 经 展开 
了 ， 比 如 上 述 1s chorol2l .doc 命令 ， 如 果 当 前 目录 下 有 cnhoo.doc 和 cho2.doc， 则 传 给 1s 命 令 的 
参数 实际 上 是 这 两 个 文件 名 ， 而 不 是 一 个 匹配 字符 串 。 


3.3. 命令 代 换 : `k $() 


由 反 引 号 括 起 来 的 也 是 一 条 命令 ，Shell 先 执行 该 命令 ， 然 后 将 输出 结果 立刻 代 换 到 当前 命令 行 
'。 例 如 定义 一 个 变量 存放 aate 命 令 的 输出 : 

































































DZ eae 
: $ echo $DATE 

















命令 代 换 也 可 以 用 s 0 表示 : 


















































用 于 算术 计算 ，s (0 ) 中 的 Shell 变 量 取 值 将 转换 成 整数 ， 例 如 : 


























| $ VAR=45 
: $ echo $(($VAR+3) ) 



























































s (0 ) 中 只 能 用 +-% 和 (运算 符 ， 并 且 只 能 做 整数 运算 。 


3.5. 转 义 字符 \ 




































































和 C 语 言 类似 ，\ 在 Shell 中 被 用 作 转 义 字 符 ， 用 于 去 除 紧 跟 其 后 的 单个 字符 的 特殊 意义 〈 回 好 
Sh) ， 换 向 话说， 紧 跟 其 后 的 字符 取 字 面值 。 例 如 








a 
tt 
s 
























































: $ echo SSHELL 
: /bin/bash 
: $ echo \SSHELL 
: SSHELL 

cenon VY 

EX 








比如 创建 一 个 文件 名 为 “$ $ "的 文件 可 以 这 样 : 





$ 





|$ touch VV V6 







































































还 有 一 个 字符 虽然 不 具有 特殊 含义 ， 但 是 要 用 它 做 文件 名 也 很 麻烦 ， 就 是 -号 。 如 果 要 创建 一 个 
文件 名 以 -号 开头 的 文件 ， 这 样 是 不 行 的 : 














: $ touch -hello 
eouene dovedie Geron == Im 
: Try “touch --help' for more information. 














即使 加 上 \ 转 义 也 还 是 报错 : 














: $ touch \-hello 
uouen: nya oo on == Ja 
: Try “touch --help' for more information. 















































因为 各 种 UNIX 命 令 都 把 -号 开头 的 命令 行 参数 当 作 命令 的 选项 ， 而 不 会 当 作 文件 名 。 如 果 非 要 处 
理 以 -号 开头 的 文件 名 ， 可 以 有 两 种 办 法 : 

































































\ 还 有 一 种 用 法 ， 在 \ 后 敲 回 车 表示 续 行 ，Shell 并 不 会 立刻 执行 命令 ， 而 是 把 光标 移 到 下 一 行 ， 给 
出 一 个 续 行 提示 符 > ， 等 竺 用 户 继续 输入 ， 最 后 把 所 有 的 续 行 接 到 一 起 当 作 一 个 命令 执行 。 例 
如 : 
















































































和 C 语 言 不 一 样 ，Shell 脚 本 中 的 单 引号 和 双 引 号 一 样 都 是 字符 串 的 界定 符 〈 双 引号 下 一 节 介 
绍 ) ， 而 不 是 字符 的 界定 符 。 单 引号 用 于 保持 引号 内 所 有 字符 的 字面 值 ， 即 使 引号 内 的 \ 和 回 车 
也 不 例外 ， 但 是 字符 种 中 不 能 出 现 单 引号 。 如 果 引号 没有 配对 就 输入 回 车 ，ShellI 会 给 出 续 行 提 
示 符 ， 要 求 用 户 把 引号 配 上 对 。 例 如 : 








































































































































































































E echo 'SSHELL' 
: SSHELL 
: $ echo 'ABC\ (HÆ) 





























: > DE' (再 按 一 次 回 车 结束 命令 ) 
: ABC\ 
: DE 

















3.7. 双 引 号 

















双 引 号 用 于 保持 引号 内 所 有 字符 的 字面 值 ( 回 车 也 不 例外 ) ， 但 以 下 情况 除外 : 





















































。 反 引号 仍 表 示 命 令 替换 


。 SESS] E IRE 





























e Ven HUF BE 
。\" 表 示 " 的 字面 值 


























e. VRBIS TREE 



































« 除 以 上 情况 之 外 ， 






































在 其 它 字 符 前 面 的 \ 无 特殊 合 义 ， 只 表示 字面 什 
































: $ echo "SSHELL" 
: /bin/bash 


TO echo deare m 


: Sun Apr 20 11 
: $ echo "I'd s 


el says YEO 


` 


PZ OOM CE SHA OOS 
awe VEG igu spy 
ite sie 




















(再 按 一 次 回 # 








b d 
: $ echo "\" ( 回 车 ) 
>" 


| S echo HAA LU 
EN 





结束 命令 ) 





ES 


2. Shell 如 何 执行 命令 
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4. bash 启动 脚本 


启动 脚本 是 bash 局 动 时 自动 执行 的 脚本 。 用 户 可 以 把 一 些 环 境 变量 的 设置 和 alias、umask 设 置 
放 在 启动 脚本 中 ， 这 样 每 次 启动 Shell 时 这 些 设置 都 自动 生效 。 思 考 一 下 ，bash 在 执行 启动 脚本 
时 是 以 fork 子 Shell 方 式 执 行 的 还 不 是 以 source 方 式 执行 的 ? 


启动 bash 的 方法 不 同 ， 执 行 启 动 脚 本 的 步骤 也 不 相同 ， 具 体 可 分 为 以 下 几 种 情况 。 
4.1. 作为 交互 登录 Shell 启 动 ， 或 者 使 用 --login 参 数 启动 


交互 Shell 是 指 用 户 在 提示 符 下 输 命令 的 Shell 而 非 执行 脚本 的 Shell， 登录 Shell 就 是 在 输入 用 户 
名 和 密码 登录 后 得 到 的 Shell， 比如 从 字符 终端 登录 或 者 用 telnet/ssh 从 远程 登录 ， 但 是 从 图 形 
界面 的 窗口 管理 需 登 录 之 后 会 显示 桌面 而 不 会 产生 登录 Shell (也 不 会 执行 启动 脚本 ) ， 在 图 形 
界面 下 打开 终端 窗口 得 到 的 Shell 也 不 是 登录 Shell。 


这 样 启动 pash 会 自动 执行 以 下 脚本 : 


1. 首先 执行 /etc/profile， 系 统 中 每 个 用 户 登 录 时 都 要 执行 这 个 脚本 ， 如 果 系 统管 理 员 希望 
某 个 设置 对 所 有 用 户 都 生效 ， 可 以 写 在 这 个 脚本 里 
2. 然后 依次 查找 当前 用 户主 目录 的 ~/.bash_profile、 ~/.bash_login 和 -~/.profile 三 个 文 
牛 ， 找 到 第 一 个 存在 并 且 可 读 的 文件 来 执行 ， 如 果 和 希望 某 个 设置 只 对 当前 用 户 生 效 ， 可 以 
写 在 这 个 脚本 里 ， 由 于 这 个 脚本 在 /etc/profile 之 后 执行 ，/etc/profile 设 置 的 一 些 环境 
变量 的 值 在 这 个 脚本 中 可 以 修改 ， 也 就 是 说 ， 当 前 用 户 的 设置 可 以 覆盖 (Override) 系统 
! 全 局 的 设置 。~/ .profile 这 个 启动 脚本 是 sn 规定 的 ，bashn 规 定 首先 查找 以 ~/ .pash_ 开 头 
的 启动 脚本 ， 如 果 没 有 则 执行 ~/.prefile， 是 为 了 和 sn 保持 一 致 。 


3. 顺便 一 提 ， 在 退出 登录 时 会 执行 ~/ .bash_1ogout 脚 本 (如果 它 存在 的 话 ) 。 
4.2. 以 交互 韭 登 录 Shell 启 动 


比如 在 图 形 界面 下 开 一 个 终端 窗 口 ， 或 者 在 登录 Shell 提 示 符 下 再 输入 bash 命 令 ， 就 得 到 一 个 交 
互 非 登录 的 Shell， 这 种 Shell 在 启动 时 自动 执行 -/.pashrc 脚 本 。 


为 了 使 登录 Shell 也 能 = 动 执行 ~/ .bashrc, 通常 在 ~/ .bash profile 1 调用 ~/.bashrc :: 



























































































































































































































































































































































































































































































































































































































































:if | -f ~/.bashrc ]; then 
' Ease 


pos 





























这 几 行 的 意思 是 如 果 ~/ .bashrc 文 件 存 在 则 source 它 。 多 数 Linux 发 行 版 在 创建 帐户 时 会 自动 创 
建 ~/ .pash_profile 和 ~/ .bashrc 脚 本 ， ~/.bash_profile 通常 都 有 上 面 这 几 行 Jo 所 以 ， 如 果 要 
在 启动 脚本 中 做 某 些 设置 ， 使 它 在 图 形 终端 窗口 和 字符 终端 的 Shell 中 都 起 作用 ， 最 好 就 是 
在 ~/ .bashrc 中 设置 。 


下 面 做 一 个 实验 ， 在 ~/.bashrc 文 件 末尾 添加 一 行 (如果 这 个 文件 不 存在 就 创建 它 ) : 




































































































































































: export PATH=SPATH: /home/akaedu 





























然后 关 掉 终 端 窗口 重新 打开 ， 或 者 从 字符 终端 1ogout 之 后 重新 登录 ， 现 在 主 目录 下 的 程序 应 该 
可 以 直接 输 程 序 名 运行 而 不 必 输 入 路 径 了 ， 例 如 : 



























































为 什么 登录 Shell 和 非 登 录 Shell 的 启动 脚本 要 区 分 开 呢 ”最 初 的 设计 是 这 样 考虑 的 ， eae 
终端 或 者 远程 登录 ， 那 么 登录 Shell 是 该 用 户 的 所 有 其 它 进 程 的 父 进程 ， 也 是 其 它 子 Shell 的 父 

程 ， 所 以 环境 变量 在 登录 Shell 的 局 动 脚本 里 设置 一 次 就 可 以 自动 市 到 其 己 非 登录 Shell 里 ， 
而 Shell 的 本 地 变量 、 函 数 、 alias 等 设置 没有 办 法 带 到 子 Shell 里 ， 需 要 每 次 启动 非 登录 Shell 时 
设置 一 遍 ， 所 以 就 需要 有 非 登 于 i E DEA BORVUES- / bash profile 里 设置 环境 
变量 ， 在 < 六 bashrc 里 设置 本 地 变量 、 也 数 、 alias Fo 如 果 你 的 Linux 吝 有 图 形 系统 则 不 能 这 样 
设置 ， 由 于 从 图 形 界 面 的 窗口 管 "T P 录 并 不 会 产生 登录 Shell， 所 以 环境 变量 也 应 该 


在 ~/. bashrc 里 设置 。 


4.3. 非 交 互 启动 


为 执行 脚本 而 fork 出 来 的 子 Shell 是 非 交 互 Shell， 启 动 时 执行 的 脚本 文件 由 环境 变量 pAsH_ENV 定 
义 ， 相 当 于 自动 执行 以 下 命令 : 




























































































































































































































































































































































































如 有 果 环 境 变 量 BAasn_Env 的 值 不 是 空 字符 串 ， 则 把 它 的 值 当 作 启动 脚本 的 文件 名 ，source 这 个 肢 












































如 果 以 sh 命令 启动 pash， bash 将 模拟 sh 的 行为 ， 以 ~/.bash_ 开 头 的 那些 启动 脚本 就 不 认 了 。 所 
以 ， 如 果 作 为 交互 登录 Shell 启 动 ， 或 者 使 用 --login 参 数 启动 ， 则 依次 执行 以 下 脚本 : 























qr 











1. /etc/profile 
2. ~/.profile 


如 有 果 作 为 交互 Shell 启 动 ， 相 当 于 自动 执行 以 下 命令 






































WAREK EE Shell izh, 则 不 执行 任何 启动 脚本 。 通 常 我 们 写 的 Shell 肢 本 都 以 #4! /pin/sh 开 
头 ， 都 属于 这 种 方式 。 
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3. Shell 的 基本 语法 5. Shell 脚 本 语法 





5. Shell 脚 本 语法 
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5. Shell 脚 本 语法 


5.1. 条 件 测 试 : test [ 








命令 test 或 [可 以 测试 一 个 条 件 是 否 成 立 ， 如 果 测 试 结果 为 真 ， 则 该 命令 的 Exit Status 为 0， 如 果 






































测试 结果 为 假 ， 则 命令 的 Exit Status 为 1 (注意 与 C 语 言 的 逻辑 表示 正好 相反 ) 。 例 如 测试 两 个 
数 的 大 小 关系 : 


E 
i$ 
E 
:0 
Es 
i$ 
:1 
i$ 
Le 
m 











VAR-2 
test SVAR -gt 1 
echo $? 


test SVAR -gt 3 
echo $? 


[ SVAR -gt 3 ] 
echo $? 























虽然 看 起 来 很 奇怪 ， 但 左 方 括号 [确实 是 一 个 命令 的 名 字 ， 传 给 命令 的 各 参数 之 间 应 该 用 空格 隔 
开 ， 比 如 ，svaR、-gt、3、] 是 [命令 的 四 个 参数 ， 它 们 之 间 必 须 用 空格 隔 开 。 命 令 test 或 [的 参 
数 形式 是 相同 的 ， 只 不 过 test 命 令 不 需要 1] 参数。 以 [命令 为 例 ， 常 见 的 测试 命令 如 下 表 所 示 : 







































































表 31.2. 测试 命令 








HRDIR EFH. 目录 则 为 真 
I 果 FILE 存 在 且 E F 则 为 真 
[1 果 sTRING 的 长 度 为 零 则 为 真 






















































































RG1 和 ARG2 应 该 是 整数 或 者 取 值 为 整数 的 变量 ，op 是 -eq (SET) - 
ae (RT) abe (小 村) ste (小 于 等 于 ) m OR) =e EY e 
F Lm 






































和 C 语 言 类 似 ， 测 试 条 件 之 间 还 可 以 做 与 、 或 、 非 逻辑 运算 : 




















表 31.3. 带 与 、 或 、 非 的 测试 命令 























' 的 任意 一 种 测试 条 件 ，! 表 示 逻 辑 反 
[ EXPR1 -a EXPR2 |EXPR1 和 ExPR2 可 以 是 上 表 中 的 任意 一 种 测试 条 件 ，-a 表 示 次 


















































EXPR1 和 ExPR2 可 以 是 上 表 中 的 任意 一 种 测试 条 件 














辑 或 
例如 : 
ig VAR=abc 
ie [ -d Desktop -a $VAR = 'abc' ] 
S echo $? 


: 0 


























注意 ， 如 果 上 例 中 的 svaR 变 量 事先 没有 定义 ， 则 被 Shell 展 开 为 空 字符 串 ， 会 造成 测试 条 件 的 语 
法 错误 (展开 为 ! -a Desktop -a = 'abc' 1) ， 作 为 一 种 好 的 Shell 编 程 习惯 ， 应 该 总 是 把 变量 
取 值 放 在 双 引 号 之 中 (展开 为 [ -a Desktop -a "" = 'abc' 1) : 













































































: $ unset VAR 

i$ [ -d Desktop -a $VAR = 'abc' ] 

! bash: [: too many arguments 

s p =C Desktop =a "SVAR' S “abe” 1 
: $ echo $? 

B di 





5.2. if/then/elif/else/fi 




















cr 
HY 

















和 C 语 言 类 似 ， 在 Shell 中 用 if、then、elif、else、fi 这 儿 条 命令 实现 分 支 控 制 。 这 种 流程 
制 语 句 本 质 上 也 是 由 若干 条 Shell 命 令 组 成 的 ， 例 如 先前 讲 过 的 


























en. chen 
: . ~/.bashre 


ea 



































其 实 是 三 条 命令 ， if [ -f ~/.bashre ]xEZS$ “AR, then . ~/.bashrczE ms o 
如 果 两 条 命令 写 在 同一 行 则 需要 用 ;号 隔 开 ， 一 行 只 写 一 条 命令 就 不 需要 写 ; 号 了 ， 另 外 ，then 后 
面 有 换行 ， 但 这 条 命令 没 写 完 ，Shell 会 自动 续 行 ， 把 下 一 行 接 在 then 后 面 当 作 一 条 命令 处 理 。 
和 [命令 一 样 ， 要 注意 命令 和 各 参数 之 间 必 须 用 空格 隔 开 。if 命 令 的 参数 组 成 一 条 子 命令 ， 如 果 
该 子 命令 的 Exit Status 为 0 (表示 真 ) ， 则 执行 then 后 面 的 子 命令 ， 如 果 Exit Status 非 0 (表示 
假 ) ， 则 执行 elif、else 或 者 fi 后 面 的 子 命令 。if 后 面 的 子 命令 通常 是 测试 命令 ， 但 也 可 以 是 
其 它 命令 。Shell 脚 本 没有 人 括号 ， 所 以 用 fi 表示 if 语句 块 的 结束 。 见 下 例 : 




















HS. t E E, fi 是 第 三 条 
J 





















































nmg 

























































































































































































i #1 /bin/sh 


; if [ -f /bin/bash ] 

cphen esho "/bin/bashers a, file" 

: else echo "/bin/bash is NOT a file" 
P gai 
EYE 














:是 一 个 特殊 的 命令 ， 称 为 空 命 令 ， 该 命令 不 做 任何 事 ， 但 Exit Status 总 是 真 。 此 外 ， 也 可 以 执 
了 /bin/true 或 /bin/false 得 到 真 或 假 的 Exit Status 。 再 看 一 个 例子 : 











一 个 





| #! /bin/sh 


i echo "Ts it morning? Please answer yes or no." 
; read YES OR NO 
EM MEDIE WOR INOW — M VO SE teem 


echo "Good morning!" 


: elif | "$YES_ OR NO" = "no" ]; then 
: echo "Good afternoon!" 
else 


echo "Sorry, S$YES OR NO not recognized. Enter yes or no." 
























































上 例 中 的 =eaa 命 令 的 作用 是 等 待 用 户 输入 一 行 字符 种， 将 该 字符 种 在 到 一 个 Shell 变 量 中 。 


此 外 ，Shell 还 提供 了 && 和 


























语法 ， 和 C 语 言 类 似 ， 具 有 Short-circuit 特 性 ， 很 多 Shell 脚 本 喜欢 写 

















“test "S(whoami)™ "= “rook” Es Mecho you are using a non— 
Spray rlbecedodocoult SEE 二 



































&& 相 当 于 “if...then...”， 而 上 | 相当 于 “if not...then...”。&& 和 || 用 于 连接 两 个 命令 ， 而 上 面 讲 的 -a 和 - 












































。 仅 用 于 在 测试 表达 式 中 连接 两 个 测试 条 件 ， 要 注意 它们 的 区 别 ， 例 如 ， 























: test "$VAR" -gt 1 && test "$VAR" -lt 3 


5.3. case/esac 

















case fit > HJ 可 类 比 C 语 言 的 switch/case 语 人 铝 ， esac 表 示 case 语 句 块 的 结束 。 C 语 言 的 case 只 能 匹配 
整 型 或 字符 型 常量 表达 式 ， 而 Shell 脚 本 的 case 可 以 匹配 字符 串 和 Wildcard ， 每 个 匹配 分 文 可 以 
有 若干 条 命令 ， 末 尾 必 须 以 ;结束 ， 执 行 时 找到 第 一 个 匹配 的 分 支 并 执行 相应 的 命令 ， 然 后 直接 
跳 到 esac 之 后 ， 不 需要 像 C 语 言 样 用 preaxk 跳 出 。 























































































































i #! /bin/sh 


: echo "Is it morning? Please answer yes or no." 
i read YES OR NO 

: case "SYES OR NO" in 

: yes| y | Yes| YES) 

|! echo "Good Morning!";; 

E (ong 

"echo “Good Afternoon!" p 

T) 

| eeheo Sora MEO YBESSORSNONEDOUSEOSOgJgnizecdem aneer Yes cp IO" 
| Gxoug Lap 

: esac 

p oam O 





























使 用 -ase 语 铝 的 例子 可 以 在 系统 服务 的 脚本 目录 /etc/init.d 中 找到 。 这 个 目录 下 的 脚本 大 多 具 
有 这 种 形式 (以 /etc/apache2 为 例 ) 




















case Sd) ia 
E start) 


rr 


stop) 


P 
reload | force-reload) 


aa 
restart) 
x) 
: log_success_msg "Usage: /etc/init.d/apache2 
: {start |stop|restart |reload|force-reload|start-htcacheclean|stop- 


nseaenceleanye 
i exit 1 


i esac 



































$1 是 一 个 特殊 变量 ， 在 执行 脚本 时 自动 取 值 为 第 一 个 命令 行 参数 ， 也 就 是 start ， 所 以 进 
入 start) 分 支 执行 相关 的 命令 。 同 理 ， 命令 行 参 数 指定 为 stop、 reload 或 restart 可 以 进入 其 它 
分 支 执行 停止 服务 、 重 新 加 载 配置 文件 或 重新 启动 服务 的 相关 命令 。 




























































































5.4. for/do/done 






































Shell 脚 本 的 tor 循环 结 构 和 C 语 言 很 不 一 样 ， 它 类 似 于 某 些 编程 语言 的 foreach 循 环 。 例 如 : 






































‘ for FRUIT in apple banana pear; do 
ecko rn kee ERO 
: done 


















































FRUIT 是 一 个 循环 变量 ， 第 一 次 循环 SFRurT 的 取 值 是 apple， 第 二 次 取 值 是 banana， 第 三 次 取 值 
是 pear。 再 比如 ， 要 将 当前 目录 下 的 chap0、 chapl^ chap2 等 文件 名 改 
为 cnap0~、chap1~、chap2~ 等 ( 按 惯例 ， 末 尾 有 ~ 字符 的 文件 名 表示 临时 文件 ) ， 这 个 命令 可 以 
这 样 写 : 




















































































































5.5. while/do/done 

















while 的 用 法 和 C 语 言 类 似 。 比 如 一 个 验证 密码 的 脚本 : 


i #! /bin/sh 








: echo "Enter password:" 
‘ read TRY 
winches DRUMS pq 
|  QolWo Sos, ey cena 
read TRY 
: done 



































下 面 的 例子 通过 算术 运算 控制 循环 的 次 数 : 





























; #! /bin/sh 


: COUNTER=1 

‘while [ "SCOUNTER" -lt 10 ]; do 
; echo "Here we go again" 

:  COUNTER=$ ( ($COUNTER+1) ) 

: done 











Shell 还 有 until 循 环 ， 类 似 C 语 言 的 do...while 循 环 。 本 章 从 上 略 。 



































习题 






































1、 把 上 面 验证 密码 的 程序 修改 一 下 ， 如 果 用 户 输 错 五 次 密码 就 报错 退出 。 
5.6. 位 置 参数 和 特殊 变量 


有 很 多 特殊 变量 是 被 Shell 上 自动 赋值 的 ， 我 们 已 经 遇 到 了 s? 和 s1 ， 现 在 总 结 一 下 : 
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表 31.4. 常用 的 位 置 参数 和 特殊 变量 











语言 H a main EK] RAL argv Lo 


ee oF (Positional Sere , 4 F CIB E main KA 
Hoe Sechium lel ments 


Amain harge - 1, TERR BIN ARIE 
表示 参数 列表 "$1" "s2" ...， 例 如 可 以 用 在 for 循 


上 一 条 命令 的 Exit Status 


a 当前 Shell 的 进程 号 














































































































位 置 参 数 可 以 用 shift 命 令 左 移 。 比 如 shift 3 表示 原来 的 $4 现 在 变 成 s1 ， 原 来 的 $5 现 在 变 
成 s2 等 等 ， 原 来 的 $1、s2、s3 于 弃 ，$o 不 移动 。 不 带 参 数 的 snift 命 令 相 当 于 snift 1。 例 如 : 




















! echo "The program $0 is now running 
i echo "The first parameter is $1" 
echo "The second parameter is $2" 
‘echo "The parameter list is $Q" 
; shift 
: OCh Vme esM Ppareneten ig gle 
: echo "The second parameter is $2" 
: echo "The parameter list is $@" 








5.7. 函数 


和 C 语 言 类 似 ，Shell 中 也 有 函数 的 概念 ， 但 是 函数 定义 中 没有 返回 值 也 没有 参数 列表 。 例 如 : 



























































: #! /bin/sh 


; foo(){ echo "Function foo is called") 
: echo "-=start=-" 

HOO 

L echo WY Seine" 























注意 函数 体 的 左 花 括号 {和 后 面 的 命令 之 间 必 须 有 空格 或 换行 ， 如 果 将 最 后 一 条 命令 和 石花 括 
号 } 写 在 同一 行 ， 命令 末尾 必须 有 ;号 。 






































在 定义 foo () 函数 时 并 不 执行 函数 体 中 的 命令 ， 就 像 定 义 变量 一 样 ， 只 是 给 foo 这 个 名 字 一 个 定 
义 ， 到 后 面 调用 too 函数 的 时 候 (注意 Shell 中 的 函数 调用 不 写 插 号 ) 才 执行 函数 体 中 的 命 

令 。Shell 脚 本 中 的 函数 必须 先 定 义 后 调用 ， 一 般 把 函数 定义 都 写 在 脚本 的 前 面 ， 把 函数 调用 和 
其 它 命令 写 在 脚本 的 最 后 (类 似 C 语 言 中 的 main 函 数 ， 这 才 是 整个 脚本 实际 开始 执行 命令 的 地 
方 ) 。 







































































































































































Shell 函 数 没 有 参数 列表 并 不 表示 不 能 传 参数 ， 事 实 上 ， 函 数 束 像 是 迷你 脚本 ， 调 用 冰 数 时 可 以 
传 任意 个 参数 ， 在 函数 内 同样 是 用 so、s1、$2 等 变量 来 提取 参数 ， 函 数 中 的 位 置 参 数 相当 于 函 
数 的 局 部 变量 ， 改 变 这 些 变量 并 不 会 影响 函数 外 面 的 80、s1、$2 等 变量 。 函 数 中 可 以 

用 return 命 令 返 回 ， 如 果 z*eturn 后 面 跟 一 个 数字 则 表示 函数 的 Exit Status。 
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下 面 这 个 脚本 可 以 一 次 创建 多 个 目录 ， 各 目录 名 通过 命令 行 参 数 传 入 ， 肢 本 逐个 测试 各 目录 是 
和 否 存在 ， 如 果 目 录 不 存在 ， 首 先 打印 信息 然后 试 着 创建 该 目录 


m /bin/sh 









































: is directory () 
Ed 
|! — DIR NAME-$1 
if [ ! -d $DIR NAME ]; then 
return 1 
else 
return 0 
i fa 
Pea 


flor DIR im VSE; de 
: ati ier Clieecicoiy USD) ns? 
then : 
else 
eel om SIRE ocsmue exi gb eI eai cae © Ween 
mkdir $DIR > /dev/null 2»5&1 
ass | S99 eme 0 lg ime 
echo "Cannot create directory SDIR" 
exit 1 
fest 
i fi 
: done 














注意 is_airectory () 返回 0 表示 真 返 回 1 表 示 假 。 
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6. Shell 脚 本 的 调试 方法 


Shell 提 供 了 一 些 用 于 调试 脚本 的 选项 ， 如 下 所 示 : 













































































-n 

读 一 遍 脚 本 中 的 命令 但 不 执行 ， 用 于 检查 脚本 中 的 语法 错误 
-V 

一 边 执行 脚本 ， 一 边 将 执行 过 的 脚本 命令 打印 到 标准 错误 输出 
-X 

















提供 跟踪 执行 信息 ， 将 执行 的 每 一 条 命令 和 结果 依次 打印 出 来 















































二 是 在 脚本 开头 提供 参数 


























































il /bin/sh 
Pa JD =m "SGLU Jg them 

| Se M =x 

echo "ERROR: Insufficient Args." 
exit 1 

set +x 

APT 






































ESR BOI TEREK IA o 


set -x 和 set +x 分 别 表示 启用 和 禁用 -x 参数 ， 这 样 可 以 只 对 脚本 


上 一 页 下 一 页 
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第 32 章 正则 表达 式 


1. 引言 


以 前 我 们 用 grep 在 一 个 文件 中 找 出 包含 某 些 字符 串 的 行 ， 比 如 在 头 文件 中 找 出 一 个 宏 定义 。 其 
实 grep 还 可 以 找 出 符合 某 个 模式 (Pattern) Hy eT A 例如 找 出 所 有 符 

合 xxxxx@xxxx.xxx 贡 式 的 字符 串 (也 就 是 email 地 址 ) 要 求 x 字 符 可 Whe BE 数字 、 DIER 
小 数 点 或 减 写 ，email 地 址 的 每 一 部 分 可 以 有 一 个 或 多 个 x 字符 ， 例 如 apc.a@ef.com、1_2@987- 
6.54， 当 然 符合 这 个 模式 的 不 全 是 合法 的 email 地 址 ， 但 至 少 可 以 做 一 次 初步 得 选 ， 簿 

fila. by cea A AE 是 email 地 下 的 字符 串 。 再 比如 ， 找 出 所 有 名 守 合 yyy .yyy. YYY-YYY 黄 式 的 字符 
E (也 就 是 IP 地 址 ) ， 要 求 y 是 0-9 的 数字 ，IP 地 址 的 每 一 部 分 可 以 有 1-3 个 y 字 符 。 


如 果 要 用 erep 查 找 一 个 模式 ， 如 何 表示 这 个 模式 ， 这 一 类 字符 申 ， 而 不 是 一 个 特定 的 字符 申 
Jb? 从 这 两 个 简单 的 例子 可 以 看 出 ， 要 表示 一 个 模式 至 少 应 该 包含 以 下 信息 ; 


。 字符 类 (Character od 如 上 例 的 x 和 y， 它 们 在 模式 中 表示 一 个 字符 ， 但 是 取 值 范围 
是 一 类 字符 中 的 任意 一 


。 数量 限定 符 (Quantifier) : 邮件 地 址 的 每 一 部 分 可 以 有 一 个 或 多 个 x 字符 ，IP 地 址 的 每 一 
部 分 可 以 有 1-3 个 y 字 符 


。 各 种 字符 类 以 及 普通 字符 之 间 的 位 置 关 系 : 例如 邮件 地 址 分 三 部 分 ， 用 普通 字符 e 和 . 隔 
开 ，IP 地 址 分 四 部 分 ， 用 . 隔 开 ， 每 一 部 分 都 可 以 用 字符 类 和 数量 限定 符 描述 。 为 了 表示 
位 置 关 系 ， 还 有 位 置 限定 符 (Anchor) 的 概念 ， 将 在 下 面 介绍 


规定 一 些 特殊 语法 表示 字符 类 、 数 量 限定 符 和 位 置 关 系 ， 然 后 用 这 些 特殊 语法 和 普通 字符 一 起 
表示 一 个 模式 ， 这 就 是 正则 表达 式 (Regular Expression) 。 例 如 email 地 址 的 正则 表达 式 可 以 
写成 [a-zA-z0-9_.-]+@[a-zA-20-9_.-]+\. [a-zA-20-9_.-]+，IP 地 址 的 正则 表达 式 可 以 写成 [0- 
9] (1,3)N. [0-9] {1,3}\.[0-91{1,3}\. in 91,3)» 下 一 市 介绍 正则 表达 式 的 语法 ， 我 们 先 看 看 
正则 表达 大 式 在 gzep !' 怎 么 用 。 例 如 有 这 样 一 个 文本 文件 testfile: 
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"PSI 168,11 

' 1234.234.04.5678 
| 123.4234.045.678 
; abcde 




















查找 其 中 包含 iP 地址 的 行 














orem oe [0-79] 11; 0 oe [0-91 1173)" testile 
MOD Hoc Du 
: 1234.234.04.5678 











egrep 相 当 于 grep -E, 表示 采用 Extended 正 则 表达 大 式 语法 。 grep 的 正则 表达 AX 

有 Basic 和 Extended 两 种 规范 ， 它们 之 间 的 区 别 下 一 节 再 解释 。 另 外 还 有 fgrep 命 令 ， 相 当 

于 grep -F， 表 示 只 搜索 固定 字符 串 而 不 搜索 正则 表达 式 模式 ， 不 会 按 正 则 表达 式 的 语法 解释 后 
面 的 参数 。 


注意 正则 表达 式 参数 用 单 引 号 括 起 来 了 ， 因 为 正则 表达 式 中 用 到 的 很 多 特殊 字符 在 Shell 中 也 有 
特殊 含义 (例如 \) ， 只 有 用 单 引号 括 起 来 才能 保证 这 些 字符 原封 不 动 地 传 给 grep 命 令 ， 而 不 会 
被 Shell 解 释 掉 。 

























































































192.168.1.1 符 合 上 述 模式 ， 由 三 个 . 隔 开 的 四 段 组 成 ， 每 段 都 是 1 到 3 个 数字 ， 所 以 这 一 行 被 找 
出 来 了 ， 可 为 什么 1234.234.04.5678 也 被 找 出 来 了 呢 ?因为 grep 找 的 是 包含 某 一 模式 的 行 ， 这 一 
行 包含 一 个 符合 模式 的 字符 串 234.234.04.567。 相 反 ，123.4234.045.678 这 一 行 不 包含 符合 模式 
的 字符 串 ， 所 以 不 会 被 找 出 来 。 


grep 是 一 种 查找 过 滤 工 具 ， 正 则 表达 式 在 grep 中 用 来 查找 符合 模式 的 字符 串 。 其 实 正则 表达 式 
还 有 一 个 重要 的 应 用 是 验证 用 户 输入 是 否 合法 ， 例 如 用 户 通过 网 页 表单 是 交 自 己 的 email 地 址 ， 
就 需要 用 程序 验证 一 下 是 不 是 合法 的 email 地 址 ， 这 个 工作 可 以 在 网 页 的 Javascript 中 做 ， 也 可 
以 在 网 站 后 台 的 程序 中 做 ,例如 PHP、Perl、Python、Ruby、Java 或 C， 所 有 这 些 语言 都 支持 
正则 表达 式 ， 可 以 说 ， 目 前 不 支持 正则 表达 式 的 编程 语言 实在 很 少见 。 除 了 编程 语言 之 外 ， 很 
多 UNIX 命 令 和 工具 也 都 支持 正则 表达 式 ， 例 如 grep、vi、sed、awk、emacs 等 等 。“ 正 则 表达 
式 " 就 像 * 变 量 "一 样 ， 它 是 一 个 广泛 的 概念 ， 而 不 是 某 一 种 工具 或 编程 语言 的 特性 。 
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2. 基本 语法 


我 们 知道 C 的 变量 和 Shell 脚 本 变量 的 定义 和 使 用 方法 很 不 相同 ， 表 达能 力也 不 相同 ，C 的 变量 有 
各 种 类 型 ， 而 Shell 脚 本 变量 都 是 字符 串 。 同 样 道理 ， 各 种 工具 和 编程 语言 所 使 用 的 正则 表达 式 
规范 的 语法 并 不 相同 ， 表 达能 力也 各 不 相同 ， 有 的 正则 表达 式 规范 引入 很 多 扩展 ， 能 表达 更 复 
杂 的 模式 ， 但 各 种 正则 表达 式 规 范 的 基本 概念 都 是 相通 的 。 本 市 介绍 egrep (1) 所 使 用 的 正则 表 


达 式 ， 它 大 致 上 符合 POSIX 正 则 表达 式 规范 ， 详 见 regex(7) (看 这 个 man page 对 你 的 英文 绝对 
是 很 好 的 锻炼 ) 。 和 希望 读者 仿照 上 一 节 的 例子 ， 一 边 学 习 语法 ， 一 边 用 earep 命 令 做 实验 。 
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ao 



























































表 32.1. 字符 类 


Aiie 
e a 
[0-9a-fA-m] 可 以 匹配 一 位 十 六 进 





















































7 于 1[] 插 号 内 的 开头 ， 匹 配 除 “|[^xy] 匹配 除 xy 之 外 的 任 一 字符 ， 
A [^xy]1 可 以 匹配 ai、bl 但 不 匹 




















Eames] 个 和 2 
母 ，[r:aigit:]1 匹 配 一 个 数字 


























[0-9] 2\. 10-91[E 0.0. 2.3. 5%, AF. EEN 
达 式 中 是 一 个 特殊 字符 ， 所 以 需要 用 \ 转 义 一 下 ， 取 







































































Fas z2A ZO om a A OO Sm a AZ OM 


]+ 匹 配 email 地 址 


[o-9)* MMEA WAF, SM S 0-91, la- 
_]+[a-za-z_0-91* 匹 配 C 语 言 的 标识 符 


] [0-9112} 匹 配 从 1oo 到 9%99 的 整数 















































] [0-9112, 1) 匹配 三 位 以 上 ( 含 三 位 ) 的 整数 






















































































紧 跟 在 它 前 面 的 单元 
E3 


[99] (2.5 0 (hp S We [1009] (ay SIN ((0— 























再 次 注意 grep 找 的 是 包含 某 一 模式 的 行 ， 而 不 是 完全 匹配 某 一 模式 的 行 。 再 举 个 例子 ， 如 果 文 
本 文件 的 内 容 是 


e 9] (1, 3) JERCIP HELE 






















































































查找 ax* 这 个 模式 的 结果 是 三 行 都 被 找 出 来 了 








Pe egrep 'a*' testfile 
i aabc 
‘ aad 
Mou 
































ax 匹配 0 个 或 多 个 s， 而 第 三 行 包含 0 个 ， 所 以 也 包含 了 这 一 模式 。 单 独 用 a* 这 样 的 正则 表达 式 


做 查找 没什么 意义 ， 一 般 是 把 a* 作 为 正则 表达 式 的 一 部 分 来 用 。 





















































r1 


K 32.3. MAR 























“content 匹配 位 于 一 行 开 头 的 content 
行 末 的 位 置 ;$ 匹 配 位 于 一 行 结尾 的 ; 号，^s 匹 配 空 行 
司 开头 的 位 置 \<th 匹 配 ... th 但 不 匹配 ethernet、 tenth 


司 结尾 的 位 置 p\> 匹 配 1eap 但 不 匹配 parent sleepy 


尾 的 位 |\pat\bVEBC... at bats 但 不 匹 
配 cat、 atexit^ batch 


单词 开头 和 结 \Bat\B 匹 配 pattery， 但 不 匹配 .. ，attend、hat 























id fel 
于 

A L 
PE 





























l 
e 


I | Ie 
T| 1H 
‘ae | dme 
| EE 
:| 二 | 村 

















































































































位 置 限定 符 可 以 帮助 grep 更 准确 地 查找 ， 例 如 上 一 节 我 们 用 [0-9] {1,3}\. [0-9] {1,3}\.[0- 
1,3}\.10-9]{1,3} 查 找 IP 地 址 ， 找 到 这 两 行 
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pi 





] 





























199: 168. li 
| 1234.234.04.5678 








H 





E 














N 











H [0-9] {1,3}\. [0-9] (1, 3}\. [0-9] {1,3}\. [0-91 {1,3}$ 查 找 ， 束 可 以 


NON 











把 1234.234.04.5678 这 一 行 过 滤 掉 了 。 























表 32.4. 其 它 特殊 字符 





























普通 字符 < 写成 \< 表 示 单 词 开头 的 位 置 ， 





























HUY, PT AIRE 

















\ I. PS I y M SEC RS e INE $ Ae EI i JE = j WL Af 
符 ， 特 殊 字 符 转 义 为 普通 字符 FERREA R. ABS LEE 


字符 来 匹配 
岂 表 达 式 的 一 部 分 括 起 来 组 成 
可 以 对 整个 单元 使 用 数 | (ro-911,3 八 .)13}[0-9]11, 3 匹配 IP 地 址 


以 
E 















































连接 两 个 子 表达 式 ， 表 示 或 的 关系 |n(oleither) 匹配 no 或 neither 














以 上 介绍 的 是 srep 正 则 表达 式 的 Extended 规 范 ，Basic 规 范 也 有 这 些 语法 ， 只 是 字符 ?+f} | 0 应 


解释 为 普通 字符 ， 要 表示 上 述 特殊 含义 则 需要 加 \ 转 义 。 如 果 用 grep 而 不 是 egrep， 并 且 不 加 - 
E 参 数 ， 则 应 该 遵照 Basic 规 范 来 写 正则 表达 式 。 

























































































= deze 下 一 页 
1-9: 起 始 页 3. sed 


3. sed 
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3. sed 


sed 意 为 流 编辑 器 (Stream Editor) ， 在 Shell 肢 本 和 Makefile 中 作为 过 滤器 使 用 非常 普遍 ， 也 就 
是 把 前 一 个 程序 的 输出 引入 sed 的 输入 ， 经 过 一 系列 编辑 命令 转换 为 另 一 种 格式 输 

出 。sea 和 vi 都 源 于 早期 UNIX 的 ea 工具 ， 所 以 很 多 sea 命 令 和 的 末 行 命令 是 相同 的 。 

sed 命 令 行 的 基本 格式 为 
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SS 
SG option eS ene 














sed 处 理 的 文件 既 可 以 由 标准 输入 重 定向 得 到 ， 也 可 以 当 命令 行 参数 传 入 ， 命 令 行 参 数 可 以 一 次 
传 入 多 个 文件 ，sea 会 依次 处 理 。sea 的 编辑 命令 可 以 直接 当 命令 行 参 数 传 和 人， 也 可 以 写成 一 个 
脚本 文件 然后 用 -f 人 参数 指定 ， 编 辑 命令 的 格式 为 




































































: /pattern/action 



































其 中 pattern 是 正则 表达 式 ，action 是 编辑 操作 。sea 程 序 一 行 一 行 读 出 待 处 理 文件 ， 如 果 某 一 行 
与 pattern 匹 配 ， 则 执行 相应 的 action， 如 果 一 条 命令 没有 pattern 而 只 有 action， 这 个 action 将 
作用 于 竺 处 理 文件 的 每 一 行 。 






























































K 32.5. 常用 的 sed 命 令 


meee 和 

eera BIRDUN pae eecafff 
ttern 的 行 ， 将 该 行 第 一 个 匹 
ttern1 的 字符 串 蔡 换 为 pattern2 
ttern 的 行 ， 将 该 行 所 有 匹 
ttern1 的 字符 串 蔡 换 为 pattern2 























































































































使 用 p 命 令 需 要 注意 ，sed 是 把 待 处 理 文件 的 内 容 连 同 处 理 结果 一 起 输出 到 标准 输出 的 ， 因 此 p 命 
令 表 示 除 了 把 文件 内 容 打印 出 来 之 外 还 额外 打印 一 遍 匹 配 pattern 的 行 。 比 如 一 个 文 


件 testfile 的 内 容 是 






















































































:$ sed '/abc/p' testfile 
p 1123 
: abc 
; abc 


: 456 
































要 想 只 输出 处 理 结 果 ， 应 加 上 -n 选 项 ， 这 种 用 法 相当 于 grep 命 令 

















! $ sed n '/abc/p' testfile 
i abc 









































使 用 a 命 令 就 不 需要 -n 人 参数 了 ， 比 如 删除 含有 abc 的 行 





:$ sed '/abc/d' testfile 
| 123 
: 456 





























注意 ，sed 命 令 不 会 修改 原文 件 ， 删 除 命令 只 表示 某 些 行 不 打印 输出 ， 而 不 是 从 原文 件 中 删 去 。 









































i$ sed 's/bc/-&-/' testfile 
P 11273 

! a-bc- 

i 456 























pattern2 中 的 表示 原文 件 的 当前 行 中 与 pattern1 相 匹配 的 字符 串 ， 再 比如 : 

















ig sed 's/\([0-9]\)\([0-91\)/-\1-~\2~/' testfile 
ee a8} 
i abc 
= 
































pattern2 I: SE 表示 上 与 pattern1 的 第 一 个 ( ) 括号 相 匹 配 的 内 容 ， \2 表 示 与 pattern1 的 第 二 个 0 f 
号 相 匹配 的 内 容 。sea 默 认 使 用 Basic 正 则 表达 式 规 范 ， 如 果 指 定 了 -z* 选 项 则 使 用 Extended 规 
范 ， 那 么 0) 括号 就 不 必 转 义 了 。 


如 果 testfile 的 内 容 是 










































































: <html><head><title>Hello World</title> 
: <body>Welcome to the world of regexp!</body></html> 



































现在 要 去 掉 所 有 的 HTML 标 签 ， 使 输出 结果 为 














! Hello World 
: Welcome to the world of regexp! 

















怎么 做 呢 ? 如果 用 下 面 的 命令 








O geel /< /on tect file 





















































结果 是 两 个 空 行 ， 把 所 有 字符 都 过 滤 掉 了 。 这 是 因为 ， 正 则 表达 式 中 的 数量 限定 符 会 匹配 尽 可 
能 长 的 字符 串 ， 这 称 为 贪心 的 (Greedy) BB。 比 如 sea 在 处 理 第 一 行 时 ，<.*> 匹 配 的 并 不 


是 <html> 或 <head> 这 样 的 标签 ， 而 是 









































: <html><head><title>Hello World</title> 





这 样 一 整 行 ， 因 为 这 一 行 开头 是 <， 中 间 是 若干 个 任意 字符 ， 末 尾 是 >。 那 么 这 条 命令 怎么 改 才 
对 呢 留 给 读者 思考 。 


[37] 有 些 正 则 表达 式 规范 支持 Non-greedy 的 数量 限定 符 ， 匹 配 尽 可 能 短 的 字符 串 ， 例 如 
在 Python 中 *? 和 * 一 样 表示 0 个 或 任意 多 个 ， 但 前 者 是 Non-greedy 的 。 





4. awk 
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4. awk 







































































sed 以 行为 单位 处 理 文件 ，awk 比 sea 强 的 地 方 在 于 不 仅 能 以 行为 单位 还 能 以 列 为 单位 处 理 文 
件 。awk 缺 省 的 行 分 隔 符 是 换行 ， 缺 省 的 列 分 隔 符 是 连续 的 空格 和 Tab ， 但 是 行 分 隔 符 和 列 分 隔 
符 都 可 以 目 定义 ， 比如 /etc/passwd 文 件 的 每 一 行 有 若干 个 字段 ， 字段 之 则 以 :分 隔 ， 就 可 以 重新 
定义 awk 的 列 分 隅 符 为 :并 以 列 为 单位 处 理 这 个 文件 。awk 实 际 上 是 一 门 很 复杂 的 脚本 语言 ， 还 有 
像 C 语 言 一 样 的 分 支 和 循环 结构 ， 但 是 基本 用 法 和 sea 类 似 ，awxk 命 令 行 的 基本 形式 为 : 



















































































































































































| amk option “scripte” ES2 oo 
owk optiona ser tese nl 2 





和 sed 一 样 ，awx 人 处 理 的 文件 既 可 以 由 标准 输入 重 定向 得 到 ， 也 可 以 当 命令 行 参 数 传 入 ， 编 辑 命 
令 可 以 直接 当 命令 行 参 数 传 入 ， 也 可 以 用 -参数 指定 一 个 脚本 文件 ， 编 辑 命令 的 格式 为 : 



























































: /pattern/ {actions} 
condi tion{ actions} 

















和 sea 类 似 ， pattern 是 正则 表达 式 ， actions 是 一 系列 操作 。 awk 程序 行 行 读 出 竺 处 理 文件 ， 
如 果 基 一 行 与 pattern 匹 配 ， 或 者 满足 conaition 条 件 ， 则 执行 相应 的 actions ， 如 果 一 条 awk 命令 
只 有 actions 部 分 ， 则 actions 作 用 于 待 处 理 文件 的 每 一 行 。 比如 文件 testfile 的 内 容 表 示 革 商店 


































































































‘ProductA 30 
i ProductB 76 
: ProductC 







| $ awk '(print $2;}' testfile 
m0) 





:76 
i 55 














自动 变量 s1、 $2 分别 表示 第 一 列 、 第 二 列 等 ， 类 似 于 Shell 肢 本 的 位 置 参数 ， 而 so 表示 整个 当前 
行 。 再 比如 ， 如 果 某 种 产品 的 库存 量 低 于 75 则 在 行 末 标 注 需要 订货 : 


是 STR {primer S posSUTM O ARE ORDERU S2 Opent 
: $0;}' testfile 



























































; ProductA 30 REORDER 
i Producte 76 
: ProductC 55 REORDER 














n 


J 见 awk 也 有 和 C 语 言 非 常 相 似 的 printf 函 数 。 awk 俞 令 的 conaition 部 分 还 可 以 是 两 个 特殊 
的 conaition 一 BEGIN 和 aNDp ， 对 于 每 个 待 处理 文 件 ，BgcxrN 后 面 的 actions 在 处 理 整 个 文件 之 前 执 
行 一 次 ，END 后 面 的 actions 在 整个 文件 处 理 完 之 后 执行 一 次 。 


awk 命 令 可 以 像 C 语 言 一 样 使 用 变量 (但 不 需要 定义 变量 ) ， 比 如 统计 一 个 文件 中 的 空 行 数 



































































































































p awk '/^ *$/ {x=x+1;} END {print x;)' testfile 




















就 像 Shell 的 环境 变量 一 样 ， 有 些 awk 变 量 是 预定 义 的 有 特殊 含义 的 : 


awk 12 














K 32.6. awk 常用 的 内 建 变量 


FILENAME = J 


THATS, = 


























































































































| $ awk “BEGIN {FS=":"} {print $1;}' Jeto/passwd 




















ra 





用 if/else、while、for 控 制 结构 ， 此 处 从 略 。 





还 可 以 像 C 语 言 A 一 样 使 








saa EA 


起 始 页 。 ”5. 练习 : 在 C 语 言 中 使 用 正则 表达 式 








5. 练习 : 在 C 语 言 中 使 用 正则 表达 式 


POSIX 规 定 了 正则 表达 式 的 C 语 言 库 函 数 ， 详 见 regex (3) 。 我 们 已 经 学 习 了 很 多 C 语 言 库 函 数 的 
用 法 ， 读者 应 该 具备 自 己 看 懂 man 手 册 的 能 力 了 。 本 章 介 绍 了 正则 表达 式 在 grep、 sed、 awk 中 

的 用 法 ， 学 习 要 能 够 举一反三 ， 请 读者 根据 regex (3) 自己 总 结 正则 表达 式 在 C 语 言 中 的 用 法 ， 写 
一 些 简 单 的 程序 ， 例 如 验证 用 户 输入 的 IP 地 址 或 email 地 址 格式 是 否 正 确 。 





4. 


= i 


3.1. fii 


3.2. 信和 号 集 操作 函 


3.3. sigprocmask 


3.4. sigpending 
>g 
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1. 信号 的 基本 概念 























为 了 理解 信号 ， 先 从 我 们 最 熟悉 的 场景 说 起 : 
1. 用 户 输入 命令 ， 在 Shell 下 启动 一 个 前 台 进 程 。 





























2. 用 户 按 下 Ctr-C， 这 个 键盘 输入 产生 一 个 硬件 中 断 。 



































3. 如 宁 CPU 当 前 正在 执行 这 个 进程 的 代码 ， 则 该 进程 的 用 户 空 间 代码 暂停 执行 ，CPU 从 用 户 
态 切换 到 内 核 态 处 理 硬件 中 断 。 






























































4. 终端 驱动 程序 将 Ctrl-C 解 释 成 一 个 srcrNzr 信 和 叶 ， 记 在 该 进程 的 PCB 中 (也 可 以 说 发 送 了 一 
个 sircINT 信 和 号 给 该 进程 ) 。 




































































5. 当 某 个 时 刻 要 从 内 核 返 回 到 该 进程 的 用 户 空间 代码 继续 执行 之 前 ， 首 先 处理 PCB 中 记录 的 


2 E 


信号 ， 发 现 有 一 个 srernTf 信 号 待 处 理 ， 而 这 个 信 号 的 默认 处 理 动 作 是 终止 进程 ， 所 以 直接 
终止 进 井 程 而 不 再 返回 它 的 用 户 空 间 代码 执行 。 











































































































注意 ，Ctrl-C 产 生 的 信号 只 能 发 给 前 台 进 程 。 在 第 3.3 节 “wait 和 waitpid 函 数 ” DU. 个 命 
邻 后面 加 个 g 可 以 放 到 后 台 运 行 ， 这 样 Shell 不 必 等 待 进程 结束 就 可 以 接受 新 的 命令 ， 启 动 新 的 进 
程 。Shell 可 以 同时 运行 一 个 前 台 进 程 和 任意 多 个 后 台 进 程 ， 只 有 前 台 进 程 才能 接 到 多 Ctrl-C 这 
种 控制 键 产 生 的 信号 。 前 台 进 程 在 运行 过 程 中 用 户 随 时 可 能 按 下 Ctrl-C 而 产生 一 个 信号 ， 也 就 是 
说 该 进程 的 用 户 空间 代码 执行 到 任何 地 方 都 有 可 能 收 到 srcrNr 信 号 而 终止 ， 所 以 信号 相对 于 进 


程 的 控制 流程 来 说 是 异步 (Asynchronous) Hj. 
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用 kil1l -1 命令 可 以 察看 系统 定义 的 信号 列表 : 











S kili =i 
: 1) SIGHUP 2) SIGINT 3) SIGQUIT 4) SIGILL 
5) SIGTRAP 6) SIGABRT 7) SIGBUS 8) SIGFPE 
9) SIGKILL 10) SIGUSR1 11) SIGSEGV 12) SIGUSR2 
: 13) SIGPIPE 14) SIGALRM 15) SIGTERM 16) SIGSTKFLT 
: 17) SIGCHLD 18) SIGCONT 19) SIGSTOP 20) SIGTSTP 
i 21) STETTIN 22) SIGTTOU 23) SIGURG 24) SIGXCPU 
: 25) SIGXFSZ 26) SIGVTALRM 27) SIGPROF 28) SIGWINCH 
: 29) SIGIO 30) SIGPWR 31) SIGSYS 34) SIGRTMIN 


i99) SIGRIMIN+1 36) SIGRTMIN+2 37) SIGRIMIN+3 38) SIGRTMIN+4 






































每 个 信号 都 有 一 个 编号 和 一 个 宏 定 义 名 称 ， 这 些 宏 定义 可 以 在 signal.n 中 找到 ， 例 如 其 中 有 定 
义 #define SIGINT 2。 编 号 34 以 上 的 是 实时 信和 号， 本 章 只 讨论 编号 34 以 下 的 信号 ， 不 讨论 实时 
信和 号。 这些 信和 号 各 自在 什么 条 件 下 产生 ， 默 认 的 处 理 动作 是 什么 ， 在 signal (7) 都 有 详细 说 
jj : 
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: Signal Value Action | Comment 
: SIGHUP dl Term Hangup detected on controlling 
: terminal 


or death of controlling process 
: SIGINT 2 Term Interrupt from keyboard 
: SIGQUIT 3 Core Quit from keyboard 


SSTGTEE 4 Core Illegal Instruction 



































上 表 中 第 一 列 是 各 信号 的 宏 定 义 名 称 ， 第 二 列 是 各 信号 的 编号 ， 第 三 列 是 默认 处理 动 

作 ，rerm 表 示 终 止 当前 进程 ，core 表 示 终 止 当前 进程 并 且 Core Dump (下 一 市 详细 介绍 什么 
是 Core Dump) ，Ign 表 示 忽 略 该 信号 ，stop 表 示 停 止 当 前 进程 ，cont 表 示 继 续 执行 先前 停止 的 
进程 ， 表 中 最 后 一 列 是 简要 介绍 ,说明 什么 条 件 下 产生 该 信号 。 


产生 信号 的 条 件 主要 有 : 
。 用 户 在 终端 按 下 基 些 键 时 ， 终 端 驱 动 程序 会 发 送信 号 给 前 台 进 程 ， 例 如 Ctrl-C 产 

生 sreINT 信 号， Ctrl- Æ srcour, Ctr l- Zr" sictstelA sy (可 使 前 台 台 进 程 停止 ， 这 
B j 旦 详细 解释 ) 。 


。 硬件 异 常 产 生 信号， 这 些 条 件 由 硬件 检测 到 并 通知 内 核 ， 然 后 内 核 向 当前 进程 发 送 适当 的 
信号 。 例 如 当前 进程 执行 了 除 以 0 的 指令 ，CPU 的 运算 单元 会 产生 异常 ， 内 核 将 这 个 异常 
解释 为 srGFPE 信 和 号 发 送 给 进程 。 再 比如 当前 进程 访问 了 非法 内 存 地 址 ，，MMU 会 产生 腊 
藻 ， 内 核 将 这 个 异常 解释 为 srcsgcv 信 和 号 发 送 给 进程 。 
。 一 个 进程 调用 ki11 (2) 函数 可 以 发 送信 号 给 男 一 个 进程 。 


。 可 以 用 ki11 (1 ) 命令 发 送信 号 给 某 个 进程 ， kill (1) 命令 也 是 调用 ki11 (2) 函数 实现 的 ， 如 一 
不 明确 指定 信和 号 则 发 送 srcrgRM 信 号， 该 信号 的 默认 处 理 动作 是 终止 进程 。 


。 当 内 核 检 测 到 某 种 软件 条 件 发 生 时 也 可 以 通过 信和 号 通知 进程 ， 例 如 闸 钟 超时 产 
生 sircarRM 信 号 ， 向 读 端 已 关闭 的 管道 写 数 据 时 产生 srcprpg 信 和 号 。 


如 果 不 想 按 默认 动作 人 处理 信 用 户 程序 可 以 调用 sigaction (2) 函数 告诉 内 核 如 何 处 理 某 种 信 
(sigaction 国 数 稍 后 详细 介 绍 ) 可 选 的 处 理 动 作 有 以 下 三 种 : 


忽略 此 信号 。 
2. 执行 该 信号 的 默认 处 理 动作 。 


3. 提供 一 个 信号 处 理 函 数 ， 要 求 内 核 在 处 理 该 信号 时 切换 到 用 户 态 执行 这 个 处 理 函 数 ， 这 种 
方式 称 为 捕捉 (Catch) 一 个 信和 号 。 
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2. 产生 信号 
2.1. 通过 终 闯 按键 产生 信号 


上 一 市 讲 过 ，srteIw7T 的 默认 处 理 动作 是 终止 进程 ，steovI7 的 默认 处 理 动作 是 终止 进程 并 且 Core 
Dump， 现 在 我 们 来 验证 一 下 。 


首先 解释 什么 是 Core Dump。 当 一 个 进程 要 异常 终止 时 ， 可 以 选择 把 进程 的 用 户 空间 内 存 数 据 
全 部 保存 到 磁盘 上 ， 文 件 名 通常 是 core ， 这 叫做 Core Dump。 进 程 异常 终止 通常 是 因为 
有 Bug ， 比 如 非法 内 存 访问 导致 段 错误 ， 事 后 可 以 用 调试 器 检查 core 文 件 以 查 清 错误 原因 ， 这 叫 
做 Post-mortem aaa 个 进程 允许 产生 多 大 的 core 文 件 取决 于 进程 的 Resource Limit (这 个 
信息 保存 在 PCB 中 ) 。 默 认 是 不 允许 产生 core 文 件 的 ， 因 为 core 文 件 中 可 能 包含 用 户 密 码 等 敏 

感 信息 ， 不 安全 。 HS im th EAT 以 用 ulimit 命 令 改 变 这 个 限制 ， 人 允许 产生 core 文 件 
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首先 用 ulinmit 命 令 改 变 Shell 进 程 的 Resource Limit， 人 允许 core 文 件 最 大 为 1024K : 





















: #include <unistd.h> 


: int main(void) 
SEU 
: while (1); 
return 0; 








前 台 运 行 这 个 程序 ， 然 后 在 终端 键入 Ctrl-C 或 Ctrl-\: 








SE IUOS 
( 按 ctr1l-c) 
S/R 


(#ctri- \) Quit (core dumped) 
ie ls -l core 
EW SSeS SS 1 akaedu akaedu 147456 2008-11-05 23:40 core 





ulimit AAE S Shel ý Resource Limit，a.out 进 程 的 PCB 由 Shell 进 程 
具有 和 Shell 进 程 相同 的 Resource Limit 值 ， 这 样 就 可 以 产生 Core Dump 了 。 


2.2. 调用 系统 函数 问 进 程 发 信号 
仍 以 上 一 节 的 死 循 环 程序 为 例 ， 首 先 在 后 台 执 行 这 个 程序 ， 然 后 用 xil1 命 令 给 它 发 sTfGsgcv 信 





剖 而 来 ， 所 以 也 


HIE 
RII 
Lr 
















































































: [1] 7940 
i$ kill -SIGSEGV 7940 
: $ (再 次 回 车 ) 

















: [1]+ Segmentation fault (core dumped) ./a.out 


























7940 是 a. por TEASE ERUNT AE fault, 是 因为 在 7940 进 程 终止 
掉 之 前 已 经 回 到 了 Shell 提 示 符 SERE 用 户 输入 下 一 条 命令 ， Shell A Z segmentation fault ÍF. 
和 用 户 的 输入 交错 在 一 起 ， 所 以 等 用 户 输 入 命令 之 后 才 显 示 。 指 定 某 种 信和 号 的 kil1 命 令 STUE 
多 种 写法 ， 上 面 的 命令 还 可 以 写成 kill -secv 7940 或 kill -11 7940，11 是 信号 srcszcv 的 编 
号 。 以 往 遇 到 的 段 错误 都 是 由 非法 内 存 访 问 产生 的 ， 而 这 个 程序 本 身 没 错 ， 给 它 发 srcsgcv 也 能 
产生 段 错 误 。 

kill 命令 是 调用 xil1 函 数 实现 的 。xil1 函 数 可 以 给 个 指定 的 进程 发 送 指定 的 信号 。raise 函 数 
可 以 给 当前 进程 发 送 指定 的 信和 号 1 给 自己 发 信号 ) o 


i #include <signal.h> 












































































































































































































































: int kill (pid t pid, int signo); 
ne raise(int signo); 











甬 数 都 是 成 功 返 回 0， 错 误 人 返回 -1。 
abort 水 数 使 当前 进程 接收 到 srcaBRT 信 号 


i #include <stdlib.h> 











| 
zl 
并 
dir 
E 




















! void abort (void); 








I 


就 像 exit 函数 一 样 ，abort 函数 总 是 会 成 功 的 ， 所 以 没有 返回 值 。 
2.3. 由 软件 条 件 产 生 信号 
sIGPIPE 是 一 种 由 软件 条 件 产生 的 信 


绍 alarm PRIA Ss TGALRM H 5 o 
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， 在 例 30.7“ 管 道 " 中 已 经 介绍 过 了 。 本 节 主 要 介 



































: #include <unistd.h> 


: unsigned int alarm(unsigned int seconds); 








Lis 


Val FA ararmPA A LE T BE] i 也 就 是 告诉 内 核 在 ssecondas 秒 之 后 给 当前 进程 发 szrcaLRM 售 
号 ， 该 信号 的 默认 处 理 动作 是 终止 当前 进程 。 XA PARANA EEEO RE E ARTSEN MG 时 间 
还 余下 的 秒 数 。 打 个 比方 ， 某 人 要 小 睡 一 觉 ， 设 定 闹钟 为 30 分 钟 之 后 啊 ，20 分 钟 后 被 人 路 醒 
了 ， 还 想 多 睡 一 会 儿 ， 于 是 重新 设 定 曾 钟 为 15 分 钟 之 后 响 ， “DL AG REE RS PI REA 下 的 时 
间 ? 就 是 10 分 钟 。 te 表示 取消 以 BI HAE AE P] hi] pt, 水 数 的 返回 值 仍然 是 以 前 设 定 
的 闹钟 时 间 还 余下 的 秒 数 。 






























































































































































































































































































































































例 33.1. alarm 


i #include <unistd.h> 
: #include <stdio.h> 


ime main (void) 

i { 

: int counter; 

alarm(1); 

for(counter-0; 1; counter++) 
printf("counter-$d ", counter); 

return 0; 


这 个 程序 的 作用 是 1 秒 钟 之 内 不 停 地 数 数 ，1 秒 钟 到 了 就 被 sIGALRM 信 号 终止 。 





3. 阻塞 信号 
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3. 阻塞 信和 号 
3.1. 信号 在 内 核 中 的 表示 


以 上 我 们 讨论 了 信和 号 产生 (Generation) 的 各 种 原因 ， 而 实际 执行 信号 的 处 理 动作 称 Huet 
ik (Delivery) ,信号 从 产生 到 弟 达 之 间 的 状态 称 为 信 号 未 决 (Pending) 。 进 程 可 以 选择 阻 
3€ (Block) 某 个 信号 。 被 阻塞 的 信号 产生 时 将 保持 在 未 决 状态  ， 直 到 进程 解除 对 此 信号 的 阻 
塞 ， 才 执行 递 达 的 动作 。 注 意 ， 阻 塞 和 忽略 是 不 同 的 ， 只 要 信号 被 阻塞 就 不 会 递 达 ， 而 忽略 是 
在 递 达 之 后 可 选 的 一 种 处 理 动作 。 信 号 在 内 核 中 的 表示 可 以 看 作 是 这 样 的 : 
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图 33.1. 信和 号 在 内 核 中 的 表示 示意 图 


task_struct 








User Space 
void sighandler(int signo) 


{ 
= 














每 个 信号 都 有 两 个 标志 位 分 别 表示 阻塞 和 未 决 ， 还 有 一 个 函数 指针 表示 处 理 动作 。 信 和 号 产生 
M, WEEER ERAI Ui Rb, FINI D RR e. (ELET 


b 


1. siGHUP 信 和 号 未 阻塞 也 未 产生 过 ， 当 它 递 达 时 执行 默认 处 理 动 作 。 































































































2. siIGINT 信 号 产生 过 ， 但 正在 被 阻塞 ， 所 以 暂时 不 能 递 达 。 虽 然 它 的 处 理 动作 是 忽略 ， 但 在 
没有 解除 阻塞 之 前 不 能 忽略 这 个 信号 ， 因 为 进程 仍 有 机 会 改变 处 理 动 作 之 后 再 解除 阻塞 。 


3. sicouiIT 信 号 未 产生 过， 一 有 旦 产生 sircourr 信 和 号 将 被 阻塞 ， 它 的 处 理 动作 是 用 户 自 定义 函 
数 sighandler。 































































































如 果 在 进程 解除 对 某 信号 的 阻塞 之 前 这 种 信和 号 产生 过 多 次 ， 将 如 何 处 理 ?POSIX.1 人 允许 系统 递 
送 该 信号 一 次 或 多 次 。Linux 是 这 样 实现 的 : 常规 信号 在 递 达 之 前 产生 多 次 只 计 一 次 ， 而 实时 信 
号 在 递 达 之 前 产生 多 次 可 以 依次 放 在 一 个 队列 里 。 本 章 不 讨论 实时 信号 。 从 上 图 来 看 ， 每 个 信 
号 只 有 一 个 bit 的 未 决 标志 ， 非 0 即 1， 不 记录 该 信号 产生 了 多 少 次 ， 阻 塞 标 志 El 
因此 ， AC TRAM BH ZEE H] HJ [以 用 相同 的 数据 类 型 sigset_ t 来 存储 ， sigset_ t 称 为 信号 集 ， 类 型 
可 以 表示 每 个 信和 号 的 “有 效 ? 或 “无 效 " 状 态 ， 在 阻塞 信号 集中 : RC 和 “无 效 ” uo nt 
被 阻塞 ， 而 在 未 决 信号 集中 “有 效 " 和 “无 效 "的 含义 是 该 信号 是 否 处 于 未 诀 状 态 。 T 将 详细 介 
绍 信 号 集 的 各 种 操作 。 阻塞 信号 集 也 叫做 当前 进程 的 信号 屏蔽 字 (Signal Mask) ， 这 里 的 “ 屏 
向 "应 该 理解 为 阻塞 而 不 是 忽略 。 
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3.2. 信号 集 操作 遂 数 




















NL 
sigset t2c4 





























对 于 每 种 信号 用 一 个 bit 表 示 “ 有 效 " 或 无效 "状态 ， 至 于 这 个 类 型 内 部 如 何 存储 这 






















































































些 bit 则 依赖 于 系统 实现 ， 从 使 用 者 的 角度 是 不 必 关 心 的 ， 使 用 者 只 能 调用 以 下 函数 来 操 


VEsigset_t ur, 而 不 应 该 对 它 的 内 部 数据 做 任何 解释 ， 比如 用 printft 直 接 打 印 sigsett 上 变量 是 
没有 意义 的 。 






































| #include <signal.h> 


ene 
P naue 
‘ant 
"mt 
DE 


sigemptyset (sigset_t *set); 
sigfillset(sigset t *set); 
Sigaddset(sigset t *set, int signo); 
Ssigdelset(sigset t *set, int signo); 
Sigismember(const sigset t *set, int signo); 
































IX s igemptysec WU tH sec Minsk, ERRIMA SANES, NAR AP 

































































BOTA AUR. BE sigriiiset Wb set HIS 














本 的 信和 号 集 ， 使 其 所 有 有 人 号 的 对 应 bit 置 














































































































位 ， 表 示 该 信号 集 的 有 效 信号 包括 系统 支持 的 所 有 信和 号。 注意 ， 在 使 用 sigset_t 类 型 的 变量 之 






























































前 ， 定 要 调用 sigemptyset 或 sigfillset 做 初始 化 ， 使 信 续集 处 确定 的 状态 。 市 可 始 


Hsigset_ 变量 之 后 就 可 以 在 调用 sigaadaset 和 siogdqelset 在 该 信号 集 ! 添 加 或 删除 某 种 有 效 信 
"Er 这 四 个 函数 都 是 成 功 返 回 0， 出 错 返 回 - 1. sigismemberze ~ 1p “KARL , FA 判断 个 信号 










































































































































































了 中 是 否 包含 某 种 信号 ， 若 包含 则 返回 1， 不 包含 则 返回 0， 出 错 返 回 -1。 











集 的 有 效 信和 号 


























3.3. sigorocmask 


























调用 函数 sigprocmask 可 以 读 取 或 更 改进 程 的 信号 屏蔽 字 。 




















: #include <signal.h> 


: int sigprocmask(int how, const sigset t *set, sigset t *oset); 





返回 值 : 车 成 功 则 为 0， 若 出 错 则 为 -1 








如 有 果 oset 是 非 空 指 针 ， 则 读 取 进程 的 当前 信号 屏 滞 字 通 过 oset 参数 传 出 。 如 果 set 是 非 空 指针 ， 

























































































则 更 改进 程 的 信号 屏 菩 字 ， 参 数 how 指 示 如 何 更 改 。 如 果 oset 和 set 都 是 非 空 指针 ， 则 先 将 原来 




































































的 信号 屏蔽 字 备 份 到 oset 里 ， 然 后 根据 set 和 how 参 数 更 改 信号 屏 项 字 。 假 设 当前 的 信号 屏蔽 字 




















为 mask , 下 表 说 明了 how 参 数 的 可 选 值 。 




















K 33.1. how 人 参数 的 含义 











如 膝 调 用 sigprocmask 解 除了 对 当前 若干 个 未 决 信号 的 阻塞 ， 则 在 sigprocmask 返 EIRT, 至 少将 其 
一 个 信号 递 达 。 












































包含 了 我 们 希望 添加 到 当前 信和 号 屏蔽 字 的 信和 号 
"T mask-mask|set 


sec TRIEZ ZH M AS zr BEBE ae Me BA SEY Ex 
于 mask=mask&~set 












































t 所 指向 的 值 ， 相 当 于 mask=set 






























































3.4. sigpending 


: #include <signal.h> 


: int sigpending(sigset t *set); 












































sigpending 读 取 当 前 进程 的 未 决 信号 集 ， 通 过 set 参 数 传 出 。 调 用 成 功 则 返回 0， 出 错 则 返回 - 
1. 




















PTELFI RISE BS LAT eS SEU. EFU T : 


i #include «signal.h» 
: #include <stdio.h> 





i void printsigset (const sigset_t *set) 
i { 
i aioe, Lg 
wor (Gal = ile al «€ 32g slaps) 
if (sigismember(set, i) == 1) 
partehar (( dL V) 9 
else 
purterar (9) )) p 
! [eise (WY) a 
:] 


‘me main (void) 

P4 

sigset t s, p; 

sigemptyset (&s); 

Sigaddset(&s, SIGINT); 

Sigprocmask(SIG BLOCK, &s, NULL); 

while (1) { 
sigpending(&p); 
printsigset (&p) ; 
sleep(1); 


} 


return 0; 



































程序 运行 时 ， 每 秒 钟 把 各 信号 的 未 决 状态 打印 一 遍 ， 由 于 我 们 阻塞 了 srern7T 信 号 ， 按 Ctrl-C 将 会 
使 srcrNT 信 处 于 未 决 状态 ， 按 Ctrl-\ 仍 然 可 以 终止 程序 ， 因 为 szceourT 信 号 没有 阻塞 。 


















































ig 5 f & o ONE 
: 0000000000000000000000000000000 


: 0000000000000000000000000000000 (这 时 按 ctr1-c) 
; 0100000000000000000000000000000 


: 0100000000000000000000000000000 (这 时 按 ctr1-\) 
:Quit (core dumped) 





下 一 页 


4. 捕捉 信和 号 





4. 捕捉 信号 
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4. 捕捉 信号 
4.1. 内 核 如 何 实现 信号 的 捕捉 


如 有 果 信号 的 处 理 动 作 是 用 户 自 定义 函数 ， 在 信号 递 达 时 就 调用 这 个 函数 ， 这 称 为 捕捉 信和 号。 由 
Tfi SBR A TE RU a ， 处 理 过 程 比较 复杂 ， 举 例如 下 : 
















































































1. 用 户 程序 注册 了 srcourT 信 号 的 处 理 函 数 sighandler。 
2. 当前 正在 执行 main 函 数 ， 这 时 发 生 中 断 或 异常 切换 到 内 核 态 。 
3. 在 中 断 处 理 完毕 后 要 返回 用 户 态 的 main 通 数 之 前 检查 到 有 信号 sicouIT 递 达 。 


4. 内 核 决定 返回 用 户 态 后 不 是 恢复 main K? BAY EB SCARS EMIT, mMEÆHíTsighandler% 
数 ，sighandler 和 main 函 数 使 用 不 同 的 堆栈 空间 ， 它 们 之 间 不 存在 调用 和 被 调用 的 关系 ， 
是 两 个 独立 的 控制 流程 。 


5.，sighandler 哨 数 返 回 后 自动 执行 特殊 的 系统 调用 sigreturn 再 次 进入 内 核 态 。 
6. 如 果 设 有 新 的 信号 要 递 达 ， 这 次 再 返回 用 户 态 就 是 恢复 main 函 数 的 上 下 文 继续 执行 了 。 









































































































































I 





图 33.2. 信号 的 捕捉 





User Mode int main() void sighandler(int) 

l 在 执行 主 控制 d { 

流程 的 某 条 指令 时 在 一 … 

因为 中 断 、 异 常 或 | } 

PAREA RT 4. (ESEE Bay 
TUCHEESRRRIRSSQBLRI 
sigretum fh OE PE: 


2. 内 核 址 理 完 异常 
YES SIEHE B Üp do signall) un gum 
先 址 理 当 前 进程 中 3. 如 果 信 号 的 外 理 5. 返回 用 户 挤 式 
可 以 递送 的 信号 i Aser de nj 
L Ler ARS 
继续 向 下 执行 


Kernel Mode 主 控制 流程 ) 








上 图 出 目 [ULK]。 














4.2. Sigaction 


i #include «si 


gnal.h> 


UE Sadacevlont(Ginita une eo M SI NES rac eng act Esa ts 
i sigaction *oact); 














sigaction ARCA) LARRA PICS Ti Ea SARE. DAFA OIL, H EE E- 


























1。signo 是 指定 信号 的 编号 。 若 act 指 针 非 空 ， 则 根据 act 修 改 该 信号 的 处 理 动作 。 若 oact 指 针 

















非 空 ; 则 通过 十 oact 传 出 该 信号 原来 的 处 理 动作 。 act Moact | 


‘struct sigaction { 


void 














(*sa_handler) (int); 
sigset_t sa_mask; 


alique, sa flags; 





/OE 



































上 | 问 sigaction 结 构 体 : 


/* addr of signal handler, */ 


SIG_IGN, or SIG DFL */ 


/* additional signals to block 


/* signal options, Figure 10.16 


/* alternate handler */ 


void (ES 


: }; 


SA magie) (ine, neon oe 





将 sa_handler 赋 值 为 请 











人 处理 函数 ， 该 函数 返回 








数 srce_IcN 传 给 sigaction 表 示 忽 略 信和 号 


赋值 为 常数 srG_pFi 表 示 执 行 系 




















统 上 默认 动作 ， 赋 值 为 一 个 函数 指针 表示 用 自 定 义 函 数 捕捉 信 


值 为 void ， 






































言 号 ， 或 者 说 向 内 核 注册 了 一 个 信号 

















可 以 带 一 个 int 参 数 ， 通 过 参数 可 以 得 知 当 前 信号 的 编写， 这 

















样 就 可 以 用 同一 个 函数 处 理 多 种 信号 。 显 然 ， 这 也 是 一 个 回 




















是 被 系统 所 调用 。 











当 茶 个 信号 的 处 理 函 数 被 调 











AY, 








内 核 自动 将 当前 信号 加 入 


























数 返回 时 目 动 恢 复原 来 的 人 





屏蔽 字 ， 这 样 就 保证 了 在 处 理 























^E, ABA eR AE BI) 





TIE 








当前 





























调 函 数 ， 不 是 被 main 郴 数 调用 ， 而 











ERENT DEE, “teh Sb 























某 个 信号 时 ， 如 采 这 种 信号 再 次 产 

















HERAKI. 如 果 在 调用 信号 























屏蔽 之 外 ， 还 希望 自动 屏蔽 另外 一 些 信 号 






































理沙 数 时 ， 除 了 当前 信号 被 目 动 





























信号 处 理 函 数 返 回 时 所 

















sa _flags 字 段 包含 一 些 选 


范 数 ， 本 章 不 详细 解释 这 





4.3. pause 





动 恢复 原来 的 信 ebur. 


本 章 的 代码 都 把 sa_ flags 设 为 0， sa _sigaction 是 人 实时 信 号 的 处 到 






































则 用 sa _mask 字 段 说 明 这 些 需 要 额外 屏蔽 的 信号， 当 








HE 

















o 有 兴趣 的 读者 参考 [APUE2e]。 





| #include <unistd.h> 


: int pause (void); 


























pause FX] EK Ze (se e] FH EE joe Et BI 




















il. pause AUK ALE 





























ds. pause ik E]; Tin 


信号 的 处 








1，errno 设 置 为 EINTR， 














下 I 我 们 用 a1arm 和 pau 











言 号 递 达 。 如 采信 和 号 的 处 理 动作 是 终止 进程 ， 则 进程 终 
返回 ; 如 采信 号 的 处 理 动作 是 忽略 ， 

















则 进程 继续 处 于 挂 起 状 






































理 动 作 是 捕捉 ， 则 调用 了 信号 处 理 水 数 之 后 pause 返 回 - 
Hf pause H 4 有 出 错 的 返回 值 ( 想 想 





以 前 还 学 过 什么 函数 只 有 出 错 返 回 


























值 ? ) o 错误 码 srNTR 表 示 * 被 信号 ERIT. 





se 实现 sleep (3) KA, 称 为 mysleep。 


例 33.2. mysleep 


i #include <unistd.h> 
: #include <signal.h> 
: #include <stdio.h> 


D voie Sig alrm(int signo) 


Pat 
/* nothing to do */ 
EJ 


: unsigned int mysleep(unsigned int nsecs) 
Ed 
: Struct sigaction newact, oldact; 
unsigned int unslept; 


newact.sa handler = sig alrm; 
Sigemptyset(&newact.sa mask); 
newact.sa flags = 0; 


Sigaction(SIGALRM, &newact, &oldact); 


alarm(nsecs); 
pause(); 


unslept = alarm(0); 
Sigaction(SIGALRM, &oldact, NULL); 


return unslept; 


Us 


| bore main(void) 
E 
while(1)( 
mysleep (2); 
printf("Two seconds passed An"); 


} 


return 0; 



































1. main Z] KA my sleep PA BL, 后 者 调 日 sigaction 注 册 了 srtcaLRM 信 号 的 人 处理 浮 数 sig_ alrmo 
































2. 调用 a1larm(nsecs) 设 定 曾 钟 。 
3. 调用 pause 等 待 ， 内 核 切换 到 别 的 进程 运行 。 
4. nsecs 秒 之 后 ， la] PAGES HY, 内 核发 srcaLRM 给 这 个 进 各 









































HE 





o 










































































5. 从 内 核 态 返 回 这 个 进程 的 用 户 态 之 前 处 理 未 决 信号 ， 发 现 有 srtGaLrRM 信 号， 其 处 理 函 数 


J; K 
是 sig_alrm。 


6. 切换 到 用 户 态 执行 sia_alrm 图 数 ， 进 入 sig_alrm 国 数 时 sIcaLRM 信 号 被 自动 屏 散 ， 
从 sig_alrm 图 数 返 回 时 srcarRM 信 号 自动 解除 屏蔽 。 然 后 自动 执行 系统 调用 sigreturn 再 次 
进入 内 核 ， 再 返回 用 户 态 继续 执行 进程 的 主 控制 流程 (main 函数 调用 的 mysleep 国 数 ) 。 

































































































































































7. pause BUR ， 然 后 调用 alarm(0) 取消 闸 钟 ， 调用 sigaction 恢 复 sicaLrM 信 号 以 前 的 处 
理 动作 。 


以 下 问题 留 给 读者 思考 : 

























































































1、 信 和 号 处 理 函 数 sig_alrm 什 么 都 没 干 ， 为 什么 还 要 注册 它 作 为 srcaLRM 的 处 理 函 数 ? 不 注册 信 
号 处 理 函数 可 以 吗 ? 
























































2s 为 什么 在 mysleep 国 数 返 回 前 要 恢复 srcarRM 信 和 号 原来 的 sigaction? 


3、mysleep 国 数 的 返回 值 表示 什么 含义 ”什么 情况 下 返回 非 0 值 ，。 
4.4. HJ EA KZ 
































aft 











当 捕 捉 到 信号 时 ， 不 论 进程 的 主 控制 流程 当前 执行 到 哪儿 ， 都 会 先 跳 到 信号 处 理 函数 中 执行 ， 
从 信号 处 理 函数 返回 后 再 继续 执行 主 控 制 流程 。 信 号 处 理 函 数 是 一 个 单独 的 控制 流程 ， 因 为 它 
和 主 控制 流程 是 异步 的 ， 二 者 不 存在 调用 和 被 调用 的 关系 ， 并 且 使 用 不 同 的 堆栈 空间 。 引 入 了 
信和 号 处 理 函 数 使 得 一 个 进程 具有 多 个 控制 流程 ， 如 果 这 些 控制 流程 访问 相同 的 全 局 资源 (全 局 
变量 、 硬 件 资源 等 ) ， 就 有 可 能 出 现 冲 突 ， 如 下 面 的 例子 所 示 。 
































C—. Hn 









































































































































图 33.3. 不 可 重 入 函数 
node t nodel, node2, *head; 
"à main() void insert(node t *p) void sighandler(int signo) void insert(node t *p) 
r L aai aH - 2, p->next=head; 
insert(&node1 J; 4 head-p:; insert(&node2); 3. head=p; 
一 } . ¢——} 
} } 

o, LL] 1 2 


node2 node2 node2 
3. 4. 
nodel nodel 
head head 
node2 node2 











main 函数 调用 insert 函数 向 一 个 链表 neaa 中 插入 节点 noae 1, 插入 操作 分 为 两 步 > se — 
的 时 候 ， 因 为 硬件 中 断 使 进程 切换 到 内 核 ， 再 次 回 用 户 态 之 前 检查 到 有 信号 待 处 理 ， 于 是 切换 

Bll si ghandl er KZ , Sighandl er 也 调用 i nsert PAA [n] 同一 个 链表 heaa 中 插入 节点 noge2 5 插入 操 
作 的 两 步 都 做 完 之 后 从 si ghandl er 返回 内 核 态 > 再 次 回 到 用 F! all; Mma in AACA H3 的 insert PRA 
中 继续 往 下 执行 ， 先 前 做 第 一 步 之 后 被 打 源 ， 现 在 继续 做 完 第 二 步 。 结 果 是 ，main 函 数 

和 sighandaler 先 后 向 链表 中 插入 两 个 节点 ， 而 最 后 只 有 一 个 节点 真正 插入 链表 中 了 。 


像 上 例 这 样 ，insert 通 数 被 不 同 的 控制 流程 调用 ， 有 可 能 在 第 一 次 调用 还 没 返 回 时 就 再 次 进入 
该 函数 ， 这 称 为 重 入 ，insert 函 数 访 问 一 个 全 局 链表 ， 有 可 能 因为 重 入 而 造成 错乱 ， 像 这 样 的 
函数 称 为 不 可 重 入 函数 ， 反 之 ， 如 果 一 个 函数 只 访问 自己 的 局 部 变量 或 参数 ， 则 称 为 可 重 入 
(Reentrant) 子 数 。 想 一 下 ， 为 什么 两 个 不 同 的 控制 流程 调用 同一 个 函数 ， 访 问 它 的 同一 个 局 
部 变量 或 参数 就 不 会 造成 错乱 ? 
如 果 一 个 函数 符合 以 下 条 件 之 一 则 是 不 可 重 入 的 : 

. 调用 了 malloc 或 free， 因为 malloc 也 是 用 全 局 链表 来 管理 的 。 

。 调 用 了 标准 |/O 库 函数 。 标 准 I/O 库 的 很 多 实现 都 以 不 可 重 入 的 方式 使 用 全 局 数据 结构 。 


SUS 规 定 有 些 系统 函数 必须 以 线程 安全 的 方式 实现 ， 这 里 就 不 列 了 ， 请 参考 [IAPUE2e]。 
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4.5. sig_atomic_t 类 型 与 volatile 限 定 符 









































在 上 面 的 例子 main 和 sighandler 都 调用 insert 函 数 则 有 可 能 出 现 链表 的 错乱 , 其 根本 原因 在 
于 ， 对 全 局 链表 的 插入 操作 要 分 两 步 完成 ， 不 是 一 个 原子 操作 ， 假 如 这 两 步 操作 必定 会 一 起 做 
完 ， 中 间 不 可 能 被 打 断 ， 就 不 会 出 现 错乱 了 。 下 一 节 线 程 会 讲 到 如 何 保证 一 个 代码 段 以 原子 操 
作 完 成 。 


现在 想 一 下 ， 如 果 对 全 局 数据 的 访问 上 只 有 一 行 代码 ， 是 不 是 原子 操作 呢 ? 比 
如 ， main 和 sighandaler 都 对 一 个 全 局 变 量 赋值 ， 会 不 会 出 现 错 百 L 呢 ? 比如 下 面 的 程序 : 
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“Long eng «as 
feat main (void) 


T 


a=5; 
return 0; 




















带 调 试 信息 编译 ， 然 后 带 源 代码 反 汇 编 : 


























: $ gcc main.c -g 
S obser dS aout 












































8048352: 95 04 08 05 movl $0x5,0x8049550 
8048359: 00 00 00 
804835c: c7 05 54 95 04 08 00 movl $0x0,0x8049554 
8048363: 00 00 00 























昌 然 C 代 码 只 有 一 行 ， 但 是 在 32 位 机 上 对 一 个 64 位 的 1ong long 变 量 赋 值 需 要 两 条 指令 完成 ， 因 
此 不 是 原子 操作 。 同 样 地 ， 读 取 这 个 变量 到 寄存 器 需要 两 个 32 位 寄存 器 才 放 得 下 ， 也 需要 两 条 
指令 ， 不 是 原子 操作 。 请 读者 设想 一 种 时 序 ， main 和 sighandler 都 对 这 个 变量 a 赋值 最 后 变 
tia ELA AE TTL 


如 果 上 述 程序 在 64 位 机 上 编译 执行 ， 则 有 可 能 用 一 条 指令 完成 赋值 ， 因 而 是 原子 操作 。 如 

果 a 是 32 位 的 int 变 量 ， 在 32 位 机 上 赋值 是 原子 操作 ， 在 16 位 机 上 就 不 是 。 如 果 在 程序 中 需要 使 
用 TER, 要 保证 对 它 的 读 写 都 是 原子 操作 ， 应 该 采用 什么 类 型 呢 ? 为 了 解决 这 些 平台 相关 
的 问题 RA, CERE T 72K sig atomic. ts 在 不 同 平台 的 C 语 言 库 ! 取 不 同 的 类 型 ， 例如 
cn 上 定义 sig_atomic t 为 int 类 型 。 


在 使 用 sig_atomic_t 类 型 的 变量 时 ， 还 需要 注意 为 一 个 问题 。 看 如 下 的 例子 : 



















































































































































































































































































































































































































































































i #include <signal.h> 


| sig atomic t a=0; 
‘int main (void) 


'{ 

: /* register a sighandler */ 

: while(!a); /* wait until a changes in sighandler */ 
| /* do something after signal arrives */ 

| return 0; 

3 

































































为 了 简洁， 这 里 只 写 了 一 个 代码 框架 来 说 明 问 题 。 在 main 函 数 中 首先 要 注册 某 个 信和 号 的 处 理 函 
数 sighandler， 然后 在 一 个 while 死 循环 EZ HS AE, 如 果 有 信号 递 达 则 执行 sighanaler , 
在 sighandler ' 将 4a 改 为 1， 这 样 再 次 回 到 main 涵 数 时 就 可 以 退出 wnile 循 环 ， 执行 后 续 人 处 理 。 HJ 
LTE 7 SEA CAET, Emain KANS PUR : 




































































































































































/* register a sighandler */ 
while(!a); /* wait until a changes in sighandler */ 


8048352: al 3c 95 04 08 mov 0x804953c, eax 
8048357: SEE test $eax,$eax 
8048359: qual ge je 8048352 «main-*0xe» 
































结果 为 0 则 跳 回 循环 开头 ， 再 次 
a); 循环 。 如 果 在 编译 时 加 了 优化 




















将 全 局 变量 a 从 内 存 读 到 sax 寄存 器 ， 对 eax 和 eax 做 AND 运 算 ， 若 
MAH 卖 变 量 a 的 值 ， 可 见 这 三 条 指 令 等 价 于 C 代 码 的 while (ta) 
选项 ， 例 如 : 























| $ gcc main.c Ol -g 
: $ objdump -dS a.out 














则 main PEACE FERS UH : 








8048352: 83 3d 3c 95 04 08 00 cmpl $0x0,0x804953c 

/* register a sighandler */ 

while(!a); /* wait until a changes in sighandler */ 
8048359: 74 fe je 8048359 <main+0x15> 




















第 一 条 指令 将 全 局 变量 as 的 内 存单 元 直接 和 0 比较 ， 如 果 相 等 ， 则 第 二 条 指令 成 了 一 个 死 循环 ， 
注意 t， 这 是 一 个 真正 的 死 循环 : RlisignandlerTéaP AT, 只 要 没有 影响 Zero 标 志 位 ， 回 
到 main 函 数 后 仍然 死 在 第 二 条 指令 上 ， 因 为 不 会 再 次 从 内 存 读 取 变量 as 的 值 。 


是 编译 需 优 化 得 有 错误 吗 ? 不 是 的 。 设 想 一 下 ， 如 AE 只 有 单一 的 执行 流程 ， 只 要 当前 执行 

流程 没有 改变 a 的 值 ，a 的 值 就 没有 理由 会 变 不 需要 反复 从 内 存 读 取 ， 因 此 上 面 的 两 条 指令 

和 while (1a) ;循环 是 等 价 的 ， 并 且 优 化 之 后 省 去 了 每 次 循环 读 内 存 的 操 ^E, RAR FT E. ALA 

AS EUSA E ae SS, AREER ICIS IR PE EE ART DT E. LEPESE 

个 执行 流程 ， 是 因为 调用 特定 平台 上 的 特定 库 浮 数 ， 比如 sigaction、 pthread_create, 这 些 
不 是 C 语 言 本 身 的 规范 ， 不 归 编 译 器 管 ， 程 序 员 应 该 目 己 处 理 这 些 问题 。C 语 言 提 供 

了 volatile 限 定 符 ， 如 果 将 上 述 变 量 定 义 为 volatile sig_atomic t a=0; 那么 即使 指 定 了 优化 选 
项 ， 编 译 器 也 不 会 优化 掉 对 变量 a 内 存单 元 的 读 写 。 


对 于 程序 中 存在 多 个 执行 流程 访问 同一 全 局 变量 的 情况 ，volatile 限 定 符 是 必要 的 ， 此 外 ， 虽 
然 程序 只 有 单一 的 执行 流程 ， 但 是 变量 属于 以 下 情况 之 一 的 ， 也 需要 volatile 限 定 : 


。 变 量 的 内 存单 元 中 的 数据 不 需要 写 操作 就 可 以 自己 发 生变 化 ， 每 次 读 上 来 的 值 都 可 能 不 一 











































































































































































































































































































































































































































































































































































































样 
。 即使 多 次 向 变量 的 内 存单 元 中 写 数 据 ， 只 写 不 读 ， 也 并 不 是 在 做 无 用 功 ， 而 是 有 特殊 意义 
的 


























什么 样 的 内 存单 元 会 具有 这 样 的 特性 呢 ? 肯 定 不 是 普通 的 内 存 ， 而 是 映射 到 内 存 地 址 空间 的 硬 
件 寄存 器 ， 例 如 串口 的 接收 寄存 器 属于 上 述 第 一 种 情况 ， 而 发 送 寄存 器 属于 上 述 第 二 种 情况 。 


sig_atomic_t 类 型 的 变 变 量 应 该 总 是 加 上 volatile 限定 符 5 因为 要 使 用 sig_atomic_t 类 is 的 理 由 也 
下 是 要 加 volatile 限定 符 的 理由 。 































































































































































































4.6. 竞 态 条 件 与 sigsuspend 函数 
现在 重新 审视 例 33.2 "mysleep”， 设 想 这 样 的 时 序 : 


1. 注册 srtcaLrM 信 号 的 处 理 函 数 。 






































2. 调用 alarm (nsecs) WEISE e 





















































3. 内 核 调度 优先 级 更 高 的 进程 取代 当前 进程 执行 ， 并 且 优先 级 更 高 的 进程 有 很 多 个 ， 每 个 都 
要 执行 很 长 时 间 


4. nsecs VE: 17 Jes [ri] # 



























































' 超 时 了 ， 内 核发 送 srIGaLRM 信 号 给 这 个 进程 ， 处 于 未 决 状态 。 


5. 优先 级 更 高 的 进程 执行 完了 ， 内 核 要 调度 回 这 个 进程 执行 。srcarRM 信 号 递 达 ， 执 行 处 到 
KEL S i g_al rm 之 后 再 次 进入 内 核 。 


6. 返回 这 个 进程 的 主 控制 流程 ， alarm(nsecs) 返回 调 用 pause () 挂 起 等 待 。 
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7. 可 是 srcarRM 信 和 号 已 经 处 理 完了 ， 还 等 竺 什么 呢 ? 


出 现 这 个 问题 的 根本 原因 是 系统 运行 的 时 序 (Timing) 并 不 像 我 们 写 程序 时 所 设想 的 那样 。 虽 
然 alarm (nsecs) 紧 接 着 的 下 一 行 就 是 pause Os 但 是 无 法 保证 pause () 一 定 会 在 调 

用 alarm (nsecs) 之 后 的 nsecs 秒 之 内 被 调 用 o 由 J 异步 事件 在 任 可 时 候 都 有 可 能 发 生 (这 里 的 异 
步 事件 指出 现 更 高 优先 级 的 进程 ) ， 如 果 我 们 写 程序 时 考虑 不 周密 ， 就 可 能 由 于 时 序 问题 而 导 
致 错误 ， 这 叫做 况 态 条 件 (Race Condition) 。 


如 何 解 决 上 述 问题 呢 ? 读者 可 能 会 想到 ， 在 调用 pause 之 前 屏蔽 srcazzw 信 号 使 它 不 能 提前 递 
就 可 以 了 。 看 看 以 下 方法 可 行 吗 ? 










































































































































































ec 





























1. Beitstcatamla Ss; 





2. alarm(nsecs) ; 








3. 解除 对 srcarRM 信 号 的 屏蔽 ; 











4. pause(); 


从 解除 信号 屏 严 到 调用 pause 之 间 存 在 间 际 ，srcaLrM 仍 有 可 能 在 这 个 间隙 递 达 。 要 消除 这 个 间 
职 ， 我 们 把 解除 屏蔽 移 到 pause 后 面 可 以 吗 ? 




































































1. 屏 沿 srIcaLrM 信 和 号; 





2. alarm(nsecs); 


3. pause(); 

















4. 解除 对 srcaLRM 信 号 的 屏 散 ; 


这 样 更 不 行 了 ， 还 没有 解除 屏蔽 就 调用 pause ，pause 根 本 不 可 能 等 到 srcarRM 信 和 号。 要 是 “解除 信 
号 屏 菩 "和 "“ 挂 起 等 待 信号 "这 两 步 能 合并 成 一 个 原子 操作 就 好 了 ， 这 正 是 sigsuspenqa 疼 数 的 功 
能 。 sigsuspend 包 含 了 pause 的 挂 起 等 待 功能 ， 同时 解决 了 竞 态 条 件 的 问题 ， EXTEN Fe BEAR? “ 格 
的 场合 下 都 应 该 调用 sigsuspendlll/lZ&pause o 
















































































































































































: #include <signal.h> 


are sigsuspend(const sigset t *sigmask) ; 




















和 pause 一 样 ， sigsuspend 没 有 成 功 返 回 值 ， 只 有 执行 J 个 aS PX ERA? Ja sigsuspena ik 
回 ， 返 回 值 为 -1，errno 设 置 为 EINTR。 


调用 sigsuspend 时 ， 进 程 的 信号 屏蔽 字 由 sigmask 参 数 指定 ， 可 以 通过 指定 sigmask 来 临时 解除 对 
某 个 信号 的 屏蔽 ， 然 后 挂 起 等 待 ， 当 sigsuspend 返 回 时 ， 进 程 的 信和 号 屏蔽 字 恢 复 为 原来 的 值 ， 
如 果 原 来 对 该 信号 是 屏蔽 的 ， 从 sigsuspend 返 回 后 仍然 是 屏蔽 的 。 











































































































UVF Hsigsuspend ET SC Mmysleep KA : 


: unsigned int mysleep(unsigned int nsecs) 


Zz 


struct sigaction newact, oldact; 
sigset t newmask, oldmask, suspmask; 
unsigned int unslept; 


/* set our handler, save previous information */ 


newact.sa handler = sig alrm; 
Sigemptyset(&newact.sa mask); 
newact.sa flags = 0; 


Sigaction(SIGALRM, &newact, &oldact); 


/* block SIGALRM and save current signal mask */ 
Sigemptyset (&newmask) ; 

sigaddset (&newmask, SIGALRM); 

Sigprocmask(SIG BLOCK, &newmask, &oldmask) ; 


alarm(nsecs); 


suspmask - oldmask; 
: sigdelset (&suspmask, SIGALRM); /* make sure SIGALRM 
em te blocked “Y 
: Sigsuspend(&suspmask); /* wait for any signal to 


i be caught */ 


| /* some signal has been caught, SIGALRM is now blocked 
Pow 


unslept = alarm(0); 
| Sigaction(SIGALRM, &oldact, NULL); /* reset previous 
: action */ 


/* reset signal mask, which unblocks SIGALRM */ 
Sigprocmask(SIG SETMASK, &oldmask, NULL); 
return (unslept) ; 
































RE VA FA mysieep K ZU] srca 178 BEilk 

















1. 调用 sigprocmask (SIG_BLOCK, &newmask, &oldmask); 时 屏 贡 srcarRM。 














2. Val FA sigsuspend(&suspmask) ; ; 时 解除 对 srIcaLrM 的 屏 滞 ， 然后 挂 起 等 待 待 。 























3. sIGALRM 递 达 后 suspend 返 回 ， 目 动 恢复 原来 的 屏蔽 字 ， 也 就 是 再 次 屏蔽 srcaALRM。 




















y 


4. 调用 sigprocmask (SIG_SETMASK, &oldmask, NULL); b] ERA sicaLRMIT]BEik o 

















4.7. 关于 SIGCHLD 信 和 号 


























进程 一 章 讲 过 用 wait 和 waitpid 函 数 清 理 僵尸 进程 ， 父 进程 可 以 阻塞 等 待 子 进程 结束 ， 也 可 以 非 
阻塞 地 查询 是 否 有 子 进 程 结 束 等 竺 清理 (也 就 是 轮 询 的 方式 ) 。 采 用 第 一 种 方式 ， 父 进程 阻塞 
了 就 不 能 处 理 自己 的 工作 了 ; 采用 第 二 种 方式 ， 父 进程 在 处 理 自己 以 司 时 还 要 记得 时 不 
时 地 轮 询 一 下 ， 程 序 实现 复杂 。 


其 实 ， 子 进程 在 终止 时 会 给 父 进程 发 srzccarp 信 和 号， 该 信号 的 默认 处 理 动 作 是 忽略 ， 父 进程 可 以 
目 定 义 sirccarp 信 号 的 处 理 果 数 ， 这 样 父 进程 只 需 专 心 处 理 上 自己 的 工作 ， 不 必 关 心 子 进程 了 ， 
进程 终止 时 会 通知 父 进 程 ， 父 进程 在 信号 处 理 函 数 中 调用 wait 清 理子 进程 即 可 。 


请 编写 一 个 程序 完成 以 下 功能 : 父 进程 fork 出 子 进 程 ， 子 进程 调用 exit (2) 终止 ， 父 进程 自 定 
X srecno A y AJAH ŽK, e 调用 wait 获 得 子 ; 进程 的 退出 状态 并 打印 。 
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事实 上 ， 由 于 UNIX 的 历史 原因 ， 要 想 不 产 生 僵 尸 进程 还 有 另外 一 种 办 法 : 父 进程 调 

用 sigaction 将 sTGcHLD 的 处 理 动作 置 为 srG_TGN 5 这 样 fork 出 来 的 子 进 程 在 终止 时 会 A 动 清理 
掉 ， 不 会 产生 僵尸 进程 ， 也 不 会 通知 父 进程 。 系 统 默认 的 忽略 动作 和 用 户 用 sisaction 函 数 自 定 
义 的 忽略 通常 是 没有 区 别 的 ， 但 这 是 一 个 特例 。 此 方法 对 于 Linux 可 用 ， 但 不 保证 在 其 它 UNIX 系 
统 上 都 可 用 。 请 编写 程序 验证 这 样 做 不 会 产生 僵尸 进程 。 
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第 34 章 终端 ”作业 控制 与 守护 进 








1. 终端 
终端 的 基本 概念 
在 UNIX 系 统 '， 用 户 通 过 终端 登录 系统 后 得 到 一 个 Shell 进 程 

















a 
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这 个 终端 成 为 Shell 进 程 的 控制 
































终端 (Controlling Terminal) ， 在 第 1 Qm eee DDR 



























































们 知道 fork 会 复制 PCB OLE hr 因此 由 Shell 进 程 局 动 的 其 它 进程 的 控制 终端 也 是 这 个 终端 。 












































默认 情况 下 (没有 重 定向 ) ， 每 个 进程 的 标准 输入 、 标准 答 出 和 标准 错 RH 





















































出 都 指向 控制 终 








端 ， 进 程 从 标准 输入 读 也 就 是 读 用 户 的 键盘 输入 ， 进 程 往 标准 输出 或 标准 错误 输出 写 也 就 是 输 



































出 到 显示 器 上 。 此 外 在 第 33 童 信号 还 讲 过 ， 在 控制 终端 输入 一 些 特殊 的 控 





发 信号 ， 例 如 Ctrl-C 表 示 sicrNT，Ctrl-\ 表 示 sIicouiT。 






































在 第 28 童 文件 与 VO 中 讲 过 ， 每 个 进程 都 可 以 通过 一 个 特殊 的 设备 文人 




















制 键 可 以 给 前 台 进 各 


F/gev/tty 访 问 它 的 控 a 





HE 











终端 。 事 实 上 每 个 终端 设备 都 对 应 一 个 不 同 的 设备 文件 ，/gev/tty 提 供 了 一 
个 进程 要 访问 它 的 控制 终端 既 可 以 通过 /dev/tty 也 可 以 通 RECHNER GC PEOR 









































In]. ttyname PRICH] LA ASCARID AE E SCE, TAOCIT 





























描述 符 必 须 指 














个 通用 的 接口 ， 











同一 个 终端 设备 而 








不 能 是 任意 文件 。 下 面 我 们 通过 实验 看 一 下 各 种 不 同 的 终端 所 对 应 的 设备 文件 名 。 





例 34.1. 查看 终端 对 应 的 设备 文件 名 

















: #include <unistd.h> 
iinexude St 


: int main() 


a 


prune (Wiel Os fae We. BEEns (0) )) ¢ 
prune (Wiel ls Sag Wa, weteswovenme (iL) ) 9 
em (Wie Be Sayo, etesvovewna (2) ) 5 
return 0; 

















/oe 

| fd 0: /dev/pts/0 
: fd 1: /dev/pts/0 
Ho 2e /dev/pes/ 0 





再 开 一 个 终端 窗口 运行 这 个 程序 ， 可 能 又 会 得 到 








S o/a OWE 

: fd 0: /dev/pts/1 
: fd 1: /dev/pts/1 
EC 23 dev /pirs/ 1 














用 Ctrl-Alt-F1 切 换 到 字符 终端 运行 这 个 程序 ， 绪 果 是 











.out 

: /dev/ttyl 
: /dev/ttyl 
: /dev/ttyl 













































































读者 可 以 再 试 试 在 Ctrl-Alt-F2 的 字符 终端 下 或 者 在 telnet 或 ssh 登 陆 的 网 络 终端 下 运行 这 个 程 
序 ， 看 看 结果 是 什么 。 

1.2. 终端 登录 过 程 

一 台 PC 通 党 rn 只 有 — E SCR EZ AE, 也 就 是 只 有 套 终端 设备 ， 但 是 可 以 通过 Ctrl- Alt-F1~Ctrl- 


Alt-F6 切 换 到 6 个 字符 终端 
的 设备 文件 分 别 是 
件 /aev/tty0 表 示 当 前 虚拟 终端 ， 








7N/dev/ttyl, 





也 是 一 个 通用 的 接 
再 举 个 例子 ， 做 嵌入 式 开发 时 经 常会 用 到 串 


如 /aev/ttys0、 











， 相 当 于 


Hes gi Jaa Tete. 








有 6 套 虚拟 的 终端 设备 ， 它 们 共 
所 以 称 为 虚拟 终端 (Virtual Terminal) 。 设 备 文 
字符 终端 时 /aev/tty0 就 表 

ty0 就 表示 /aev/tty2 ， 


比如 切换 到 Ctrl-Alt-F1 的 
切换 到 Ctrl-Alt-F2 的 字符 终端 时 /aev/t 




















口 ， 但 它 不 能 表示 


图 形 终端 窗 

















/dev/ttys1 等 ， 








口 终端 ， 


将 主机 和 目标 板 用 目 





met 





F1 


口 所 对 应 的 终端 。 
目标 板 的 每 个 串 








口 线 连 起 来 ， 








过 Linux 的 minicom 或 Windows 的 超级 终端 工具 登录 到 目标 板 的 系统 。 

























































































































































用 同一 套 物 : 





理 终端 设备 ， 对 应 














BUR /dev/tty Ë 





口 对 应 一 个 终端 设备 ， 比 





就 可 以 在 主机 上 通 












































内 核 中 处 理 终端 设备 的 模块 包括 硬件 驱动 程序 和 线路 规程 (Line Discipline) 。 
图 34.1. 终端 设备 模块 
用 户 进 程 
open/read/write/ioctl... 
read/write #508 FER] Se 3 
PH line discipline 
终端 设备 (AC 显示 器 等 ) 
硬件 驱动 程序 负责 读 写实 际 的 硬件 设备 ， 比 如 从 键盘 读 入 字符 和 把 字符 输出 到 显示 器 ， 线 路 规 
程 像 一 个 过 滤器 ， 对 于 某 些 特殊 字符 并 不 是 让 它 直 接 通过 ， 而 是 做 特殊 处 理 ， 比 如 在 键盘 上 按 
下 Ctrl-Z， 对 应 的 字符 并 不 会 被 用 户 程序 的 reaa 读 到 ， 而 是 被 线路 规程 截获 ， 解 释 成 srcrsrp 信 
号 发 给 前 全 进程， 通常 会 使 该 进程 停止 。 线 路 规程 应 该 过 滤 哪 些 字符 和 做 哪些 特殊 处 理 是 可 以 
配置 的 。 





终端 设备 有 输入 和 输出 队列 组 





图 34.2. 终端 组 ; 














如 下 图 所 示 。 

















xX, 


meus 用 户 进程 调用 write € 用 户 进程 调用 read 读 了 肥 


内 核 
Siu TB) PI 才 一 一 一 输入 队列 





to line discipline from line discipline 














以 输入 队列 为 例 ， 从 键盘 输入 的 字符 经 线路 规程 过 滤 后 进入 输入 队列 ， 用 户 程 序 以 先进 先 出 的 
顺序 从 队列 中 读 取 字符 ， 一 般 情 况 下 ， 当 输入 队列 满 的 时 候 再 输入 字符 会 丢失 ， 同 时 系统 会 响 
铃 和 警报。 终端 可 以 配置 成 回 显 (Echo) 模式 ， 在 这 种 模式 下 ， 输 入 队列 中 的 每 个 字符 既 送 给 
站 程序 也 送 给 输出 队列 ， 因 此 我 们 在 命令 行 键入 字符 时 ， 该 字符 不 仅 可 以 被 程序 读 取 ， 我 们 也 
可 以 同时 在 屏幕 上 看 到 该 字符 的 回 显 。 


现在 我 们 来 看 终端 登录 的 过 程 


1、 系 统 启动 时 ，init 进 程 根据 配置 文件 /eccyinittab 确 定 需要 打开 哪些 终端 。 例 如 配置 文件 中 
有 这 样 一 行 : 

















— 










































































































































































: 1:2345:respawn:/sbin/getty 9600 ttyl 



































和 /etc/passwa 类 似 ， 每 个 字段 用 :号 隔 开 。 开头 的 1 是 这 一 行 配置 的 id , 通常 要 和 tty 的 后 缀 一 

致 ， 配 置 tty2 的 那 一 行 id 就 应 该 是 2。 第 二 个 字段 2345 表 示 运 行 级 别 2~5 都 执行 这 个 配置 。 最 后 
=] 字段 /spin/getty 9600 ttyl 是 init 进程 要 fork/exec 的 命令 ， 打开 终端 /gev/tty1l， 波 特 率 
是 9600 ( 波 特 率 只 对 串口 和 Modem 终 端 有 意义 ) ， 然 后 提示 用 户 输入 帐号 。 中 间 的 zespawn 字 
段 表示 init 进 程 会 监视 getty 进 程 的 运行 状态 ， 一 旦 该 进程 终 目 ， init 会 再 次 fork/exec 这 个 命 

令 ， 所 以 我 们 从 终端 退出 登录 后 会 再 次 提示 输入 帐号 。 

有 些 新 的 Linux 发 行 版 已 经 \ 用 /etcyinittab 这 个 配置 文件 了 ， 例如 Ubuntu 用 /etcy/event.a 目 录 
下 的 配置 文件 来 配置 init。 


2、setty 根 据 命 令 行 参数 打开 终端 设备 作为 它 的 控制 终端， 把 文件 描述 符 0、1、2 都 指向 控制 终 
端 ， 然 后 提示 用 户 输入 帐号 。 用 户 输入 帐号 之 后 ，setty 的 任务 就 完成 了 ， 它 再 执行 1ogin 程 
序 : 




































































































































































! execle("/bin/login", Ns] opum US pL S Srn amer NU lili en) 



































3、1login 程 序 提示 用 户 输 入 密码 (输入 密码 期 间 关 闭 终端 的 回 显 ) ， 然 后 验证 帐号 密码 的 正确 
性 。 如 果 和 密码 不 正确 ， 1ogin 进 程 终止 ， in 让 会 重新 fork/exec 一 个 getty 进 程 。 如 果 密 人 码 正 
确 ，login 程 序 设置 一 些 环境 变量 ， 设 置 当 前 工作 目录 为 该 用 户 的 主 目录 ， 然 后 执行 Shell: 







































































: execl ("/bin/bash", "—bash", NULL); 

















注意 argv101 参 数 的 程序 名 前 面 加 了 一 个 -， 这 样 pasn 就 知道 自己 是 作为 登录 Shell 启 动 的 ， 执 行 
登录 Shell 的 启动 脚本 。 从 getty 开 始 exec 到 1ogin， Fhexec#llbash, 其 实 都 是 同一 MEFE, 因此 
控制 终端 没 变 ， 文 件 描述 符 0、1、2 也 仍然 指向 控制 终端 。 由 于 fork 会 复制 PCB 信 息 ， 所 以 

由 Shell 局 动 的 其 它 进 程 也 都 是 如 此 。 


1.3. 网 络 登 录 过 程 












































































































































虚拟 终端 或 申 
H th, Nee eh ER 
伪 终 端 (Pseudo TTY) 实现 的 。 

(PTY Slave) 组 成 。 主 设备 在 概念 上 相当 于 键盘 和 显示 器 ， 
从 设备 和 上 面 介 
序 不 是 访问 硬件 而 是 访问 主 设备 。 通 过 例 34.1" 查 看 终端 
口 的 Shell 进 程 以 及 它 局 动 的 其 


的 数 























口 终端 
口 的 数 


的 数 





























目 是 有 限 的 ， 虚 拟 终端 一 
目 。 然 而 网 络 终端 或 图 形 终端 窗 








WOWLAE/dev/ttyi"/dev/tty67v/ T , FOR 


口 的 数 














目 却 是 不 受 限 制 的 ， 这 是 通过 
套 伪 终端 由 一 个 主 设备 (PTY Master) 和 一 个 从 设备 














Xm 
十 






































内 核 模块 ， 操 作 它 的 也 不 是 用 户 而 是 另外 一 个 进程 。 
设备 模块 类 似 ， 只 不 过 它 的 底层 驱动 程 

对 应 的 设 ae 名 "的 实验 结果 可 以 看 到 , 

它 进 程 都 会 认为 自己 的 控制 终端 是 伪 终 端 从 设备 ， 例 女 
以 telnet 为 例 说 明 网 络 登录 和 使 用 伪 终 端的 过 程 。 
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. tel 


. 4A 





























图 34.3. 伪 终 端 





telnet 





通过 telnet 客 
器 监听 连接 请 求 是 一 个 Leineta 进 程 
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Super-Server , 
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配置 更 为 灵活 。 
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ETIRI de 


网 络 终端 或 图 形 终端 窗 


H/dev/pts/0. 

















1. fork 





Ey 它 fork 出 一 








求 。 


它 监 听 系 统 中 的 多 个 网 络 服务 
口号 一 致 ， "edd | eineta 了 进程 来 服务 客 














2. exec /bin/login 
3. exec /bin/bash 


。 如 果 服 务 器 T tons (Standalone) 模式 ， 
telnetd ^j 进程 








F ymo 


inetd 子 进程 打开 一 个 伪 终 端 设 备 ， 然 后 再 经 过 fork 一 分 为 二 





备 ， 子 进程 将 伪 终 端 从 设备 作为 它 的 控 表 








端 ， 二 者 通过 伪 终 端 通信 ， 





过 程 


E. 


成 Shell 进 程 。 这 个 Shell 进 程 认为 自己 








父 进 各 











呈 还 负责 和 telnet 客 
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VERE RE Lodi See FF , 


户 输 入 命令 时 ， 
netd 服 务 需 代表 用 
端 而 不 是 真正 的 键 姐 显示 人 起， y 知道 操作 终端 的 “用 
。Shell 仍 然 解释 执行 命令 ， 将 标准 输出 和 标准 错误 输出 写 到 终端 设备 ， 这 些 数据 最 
然后 显示 给 用 


由 tel 











AAA 


终 由 telnetd 服 务 器 发 回 给 te inet 








telnet ¥ 





而 操作 这 个 





为 终端 的 “用 
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4H 
户 将 这 些 字 符 输 入 伪 终 端 。 Shell 进 程 并 不 知道 
AS 实 是 Lineta 服 务 器 而 不 是 真正 


Fm 











| 终端， 并 且 将 文件 








监听 连接 请 
端口 ， 如 果 连 接 请 求 的 端 


描述 符 0、 








只 不 过 它 不 是 真正 的 硬件 而 是 一 个 
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文 样 的 终端 


绍 的 /qev/tty1l 这 





























/dev/pts/1 等 。 下 面 











则 在 服 
Him, ^et 





来 服务 客 





求 ，ineta 称 为 Internet 
H 号 和 telnet 服 务 


xinetdq 是 inetd 的 升级 版 本 , 














: Na 操作 伪 终 端 主 设 


、2 指 向 控制 终 
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Po jl s 
端 通信 , 
提示 输入 帐号 ， 然 后 调用 exec 变 成 1ogin 进 程 ， 提示 输入 密 个 ， 然 后 调用 exec 变 
j 终 端 是 伪 终 端 从 设备 ， 
户 ” 就 是 全 i 


站 输入 的 字符 通过 网 络 发 给 telneta 服 务 絮 


进程 


Etelnetdo 


而 了 进程 负 责 用 站 的 登录 





伪 终 端 主 设备 可 以 看 
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己 连接 的 是 伪 终 
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WM Reiner 4 Pr wien PAR SS ee TED AY ZA EIR BOK, ETS BFE EP MES aL LB 
能 回 显 到 屏幕 上 。 这 说 明 我 们 每 按 一 个 键 telnet 客 户 端 都 会 立刻 把 该 字符 发 送 给 服务 器 ， 然 后 
这 个 字符 经 过 伪 终 端 主 设备 和 从 设备 之 后 被 Shell 进 程 读 取 ， 同 时 回 显 到 伪 终 端 从 设备 ， 回 显 的 
字符 再 经 过 伪 终 端 主 设备 、telneta 服 务 器 和 网 络 发 回 给 telnet Yin, 显示 给 用 户 看 。 也 许 你 
会 觉得 吃惊 ,但 真 的 是 这 样 : 每 按 一 个 键 都 要 在 网 络 上 走 个 来 回 ! 











































































































BSD 系 列 的 UNIX 在 /aev 目 录 下 创建 很 多 ptyxx 和 ttyxx 设 备 文件 ，xx 由 字母 和 数字 组 

成 ，ptyxx 是 主 设备 ， 相 对 应 的 ttyxx 是 从 设备 ， 伪 终端 的 数目 取决 于 内 核 配 置 。 而 在 SYS VA 
列 的 UNIX 上 ， 伪 终端 主 设备 是 /qev/ptmx，“mx” 表 示 Multiplex ， 意 思 是 多 个 主 设备 复 用 同一 个 
设备 文件 ， 每 打开 一 次 /aev/ptmx ， 内 核 就 分 配 一 个 主 设备 ， 同 时 在 /aev/pts 目 录 下 创建 一 个 从 
设备 文件 ， 当 终端 关闭 时 就 从 /aev/pts 目 录 下 删除 相应 的 从 设备 文件 。Linux 同 时 文 持 上 述 两 种 
伪 终 端 ， 目 前 的 标准 倾向 于 SYS V 的 伪 终 端 
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2. 作业 控制 


2.1. Session 与 进程 组 









































| 我 说 过 *Shell 可 以 同时 运行 一 个 前 台 进程 和 任意 多 个 后 台 进 程 "其 
实 是 不 全 而 的 CETTE 人 研究 更 复杂 的 情况 。 事 实 上 ，Shell 分 前 后 台 来 控制 的 不 是 进程 而 是 
作业 (Job) 或 者 进程 组 (Process Group) 。 一 个 前 台 作业 可 以 由 多 个 进程 组 成 ， 一 个 后 台 作 
业 也 可 以 由 多 个 进程 组 成 ，Shell 可 以 同时 运行 一 个 前 台 作 业 和 任意 多 个 后 台 人 作业， 这 称 为 作业 
控制 (Job Control) 。 例 如 用 以 下 命令 启动 5 个 进程 (这 个 例子 出 自 [APUE2el]) : 

















































































































eoen proc2 & 
i= procs proc4 | proc5 


























Iproc1 和 proc2 属于 同一 个 后 台 进 程 组 ， proc3^ proc4、 proc5 属于 同一 个 前 人 台 进 程 
组 ， Shell 进 程 本 身 属于 一 个 单独 的 进程 组 。 这 些 进程 组 的 控制 终端 相同 ， 它 们 属于 同一 
个 Session。 当 用 户 在 控制 终端 输入 特殊 的 控制 键 (例如 Ctrl-C) AY, 内 核 会 发 送 相应 的 信号 
(例如 srcrNr) 给 前 台 进 程 组 的 所 有 进程 。 各 进程 、 进 程 组 、Session 的 关系 如 下 图 所 示 。 



































































































































图 34.4. Session 与 进程 组 
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wm 
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session 

















现在 我 们 从 Session 和 进程 组 的 角度 重新 来 看 登录 和 执行 命令 的 过 程 。 


























getty 或 telnetd 进 程 在 打开 终端 设备 之 前 调用 setsia 函 数 创建 一 个 新 的 Session , 该 进程 
称 为 Session Leader， 该 进程 的 id 也 可 以 看 作 Session 的 id， 然 后 该 进程 打开 终端 设备 作为 
这 个 Session 中 所 有 进程 的 控制 终端 。 在 创建 新 Session 的 同时 也 创建 了 一 个 新 的 进程 组 ， 
该 进程 是 这 个 进程 组 的 Process Group Leader， 该 进程 的 id 也 是 进程 组 的 id。 

































































2. 在 登录 过 程 中 ，detty 或 telneta 进 程 变 成 1ogin ， 然 后 变 成 Shell， 但 仍然 是 同一 个 进程 ， 
仍然 是 Session Leader。 


























3. 由 Shell 进 程 forkx 出 的 子 进程 本 来 具有 和 Shell 相 同 的 Session、 进 程 组 和 控制 终端 ， 但 






































是 Shell 调 用 setpsia 函 数 将 作业 中 的 某 个 子 进程 指定 为 一 个 新 进程 组 的 Leader， 然 后 调 
用 setpgia 将 该 作业 中 的 其 它 子 进程 也 转移 到 这 个 进程 组 中 。 如 果 这 个 进程 组 需要 在 前 台 
运行 ， 就 调用 ecsetpgrp 函 数 将 它 设置 为 前 台 进 程 组 ， 由 于 一 个 Session 只 能 有 一 个 前 台 进 
程 组 ， 所 以 Shell 所 在 的 进程 组 就 自动 变 成 后 台 进 程 组 。 


在 上 面 的 例子 中 ，proc3、proc4、proc5 被 Shell 放 到 同一 个 前 台 进 程 组 ， 其 中 有 一 个 进程 
是 该 进程 组 的 Leader，Shell 调 用 wait 等 待 它们 运 BAR. - 一 旦 它们 全 部 运行 结 
R, Shell 就 调用 tcsetpgrp 通 数 将 自己 提 BAY BARKS IRL 受命 令 。 但 是 注意 ， 如 
果 proc3、 proc4、 proc5 [的 时 个 进程 又 fork 出 子 进程 ， 子 进程 也 属于 同 进程 组 ， 但 
是 Shell 并 不 知道 子 进 程 的 存在 ， 也 不 会 调用 wait SF CZ ZAN o FRA AJW, proc3 | proc4 
proc5 是 Shell 的 作业 ， 而 这 个 子 进程 不 是 ， 这 是 作业 和 进程 组 在 概念 上 的 区 别 。 一 旦 作 
业 运 行 结束 ，Shell 就 把 自己 提 到 前 台 ， 如 果 原 来 的 前 台 进 程 组 还 存在 (如 果 这 个 子 进程 还 
没 终止 ) ， 则 它 自动 变 成 后 台 进 程 组 (回顾 一 下 多 30.3 “fork”) 。 


下 面 看 两 个 例子 。 
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2 ps -o pid, ppid,pgrp, session, tpgid, comm cat 
PID PPID PGRP SESS TPGID COMMAND 
6994 6989 6994 6994 8762 bash 
8762 6994 8762 6994 8762 ps 
8763 6994 8762 6994 8762 cat 























这 个 作业 由 ps 和 eat 两 个 进程 组 成 ， 在 前 台 运 行 。 从 PPiIp 列 可 以 看 出 这 两 个 进程 的 父 进程 
是 bash。 从 PcFP 列 可 以 看 出 ，bash 在 id 为 6994 的 进程 组 中 ， 这 个 id 等 于 bash 的 进程 id， 所 以 它 是 
进程 组 的 Leader， 而 两 个 子 进程 在 id 为 8762 的 进程 组 中 ，ps 是 这 个 进程 组 的 Leader。 从 sgss 可 
以 看 出 三 个 进程 都 在 同一 Session 中 ，bash 是 Session Leader。 从 rpcIiDp 可 以 看 出 ， 前 台 进 程 组 
的 id 是 8762， 也 就 是 两 个 子 进 程 所 在 的 进程 组 。 























































































































: $ ps -o pid, ppid,pgrp, session, tpgid, comm cat & 
: [1] 8835 
LS PID PPID PGRP SESS TPGID COMMAND 

6994 6989 6994 6994 6994 bash 

8834 6994 8834 6994 6994 ps 

8835 6994 8834 6994 6994 cat 


























个 作业 由 ps 和 cat 两 个 进程 组 成 ， 在 AIST, bash 不 等 作业 结束 就 打印 提示 信息 [1] 8835 然 
EP 出 提示 符 接受 新 的 命令 ，[1] 是 作业 的 编号 ， 如 果 同 时 运行 多 个 作业 可 以 用 这 个 编号 区 
分 ，8835 是 该 作业 中 某 个 进程 的 |d。 请 读者 自己 分 析 ps 命 令 的 输出 结果 。 


2.2. 与 作业 控制 有 关 的 信号 
我 们 通过 实验 来 理解 与 作业 控制 有 关 的 信号 。 







































































































































































将 cat 放 到 后 台 运 行 ， 由 于 cat 需 要 读 标准 输入 (也 就 是 终端 输入 )， 而 后 台 进 程 是 不 能 读 终端 
输入 的 ， 因 此 内 核发 sIerrIN 信 号 给 进程 ， 该 信号 4 默认 处 理 动作 是 使 进程 停止 。 



































i [1]+ Stopped cat 
BS) EG Wu 
| cat 


‘hello (H#) 
: hello 





i [1]4 Stopped cat 














H 


jobs 命 令 可 以 查看 当前 有 哪些 作业 。fg 命 令 可 以 将 某 个 作业 提 至 前 台 运 行 ， 如 果 该 作业 的 进 各 
组 正在 后 台 运 行 则 提 至 前 台 运 行 ， 如 果 该 作业 处 于 停止 状态 ， 则 给 进程 组 的 每 个 进程 


发 srccoNT 信 号 使 它 继续 运 行 。 参 数 s1 表 示 将 第 1 个 作业 提 至 前 台 运 行 。cat 提 到 前 台 运 行 后 ， 挂 


等 待 终端 输入 ， 当 输入 hello 并 回 车 后 ，cat 打 印 出 同样 的 一 行 ， 然 后 继续 挂 起 等 待 输入 。 如 
果 输 入 Ctrl-Z 则 向 所 有 前 台 进 程 发 srcersrp 信 和 号， 该 信号 的 默认 动作 是 使 进程 停止 。 





FH 



































































































































EOD Dee cat & 


ES Stopped Cae 
































bg 命令 可 以 让 某 个 停止 的 作业 在 后 台 继 续 运 行 ， 也 需要 给 该 作业 的 进程 组 的 每 个 进程 


发 siccoNT 信 号 。cat 进 程 继续 运 行 ， 又 要 读 终 端 输入 ， 然 而 它 在 后 人 台 不 能 读 终 端 输入 ， 所 以 又 
收 到 srcrrzN 信 号 而 停止 。 




















FH 

































































:$ ps 
; PID TTY TIME CMD 
6994 pts/0 00:00:05 bash 


: 11022 pts/0 
: 11023 pts/0 


: $ kill 11022 


: $ ps 
: ITI SETTE Y 


: 6994 pts/0 
| 11022 pts/0 
: 11024 pts/0 


00:00:00 cat 
00:00:00 ps 


TIME CMD 
00:00:05 bash 
00:00:00 cat 
00:00:00 ps 


: $ fg %1 
|! cat 
: Terminated 




































































运行 之 前 处 理 ， 上 默认 动作 是 终止 进程 。 但 如 果 给 一 个 停止 的 进程 发 srekILL 信 号 就 不 同 了 。 











用 xil1 命 令 给 一 个 停止 的 进程 发 srGrgRM 信 和 号， 这 个 信号 并 不 会 立刻 处 理 ， 而 要 等 进程 准备 继续 
"AN 






































O Cae e 

a aizi 

:$5 ps 

i JEXILID). ARAB NS TIME CMD 

; 6994 pts/0 00:00:05 bash 
dol pts/0 00:00:00 cat 


STUNDE S AO 00:00:00 ps 


: [1]+ Stopped cat 
owed =ne LULZ 
: [1]+ Killed cat 












































SIGKILLÍA F BEA RE EBA AE LAS AE Ok, HLA BEF A xe SC Ret, RETR ASR Ea 
刻 处 理 。 与 此 类 似 的 还 有 srcsrop 信 号 ， 给 一 个 进程 发 srcsroP 信 和 号 会 使 进程 停止 ， 这 个 默认 的 处 
理 动作 不 能 改变 。 这 样 保 证 了 不 管 什么 样 的 进程 都 能 用 srcxrrz 终 止 或 者 用 srcsrop 停 止 ， 当 系统 
出 现 异常 时 管理 员 总 是 有 办 法 杀 挤 有 问题 的 进程 或 者 暂时 停 挤 怀疑 有 问题 的 进程 
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上 面 讲 了 如 果 后 台 进 程 试图 从 控制 终端 读 ， 会 收 到 sterrIN 信 号 而 停止 ， 如 果 试 图 向 控制 终端 写 
呢 ? 通 常 是 允许 写 的 。 如 果 觉 得 后 台 进 程 向 控制 终端 输出 信息 干扰 了 用 户 使 用 终端 ， 可 以 设置 
一 个 终端 选项 禁止 后 台 进 程 写 。 



















































































ETS & 


: [1] 11426 
: $ hello 


: [1]+ Done cat testfile 


S atty Toto 
: $ cat testfile & 
: [dL] LAZE 


: [1]* Stopped cat testfile 
:$ fg %1 

:cat testfile 

: hello 











首先 用 stty 命 令 设置 终端 选项 ， 禁 止 后 台 进 程 写 ， 然 后 启动 一 个 后 台 进 程 准备 往 终 端 写 ， 这 时 
进程 收 到 一 个 srerrou 信 和 号， 默认 处 理 动作 也 是 停止 进程 。 





3. 守护 进程 
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Linux 系 统 局 动 时 会 局 动 很 多 系统 服务 进程 ， f : 旦 " 讲 的 ineta ， 这 些 系统 
服务 进程 没有 控制 终端 ， 不 能 直接 和 用 户 交 互 。 EREN 用 户 登 录 或 运行 得 序 时 创建 ， 
在 运行 结束 或 用 户 注销 时 终止 ， 但 系统 服务 进程 不 受用 户 登 录 注 销 的 影响 ， 它 们 一 直 在 运行 
着 。 这 种 进程 有 一 个 名 称 叫 守护 进程 (Daemon) 。 


下 面 我 们 用 ps axj 命令 查看 系统 中 的 进程 。 参 数 a 表 示 不 仅 列 当前 
用 户 的 进程 ， 参 数 x 表 示 不 仅 列 有 控制 终端 的 进程 ， 也 列 出 所 有 无 # 
列 出 与 作业 控制 相关 的 信息 。 


































































































































































































日 户 的 进程 ， 也 列 出 所 有 其 他 
: 制 终端 的 进程 ， 参 数 j 表 示 

















21 






































E jos as 
PPID PID PGID SD) LIEN? TPGID STAT UID TIME COMMAND 
0 1 1 12? -i Be 0 0:01 /sbin/init 
0 2 0 0 ? EN 0 0:00 [kthreadd] 
2 3 0 0 ? -i 8< 0 0:00 
i [migration/0] 
: 2 4 0 9 * =i $< 0 0:00 
i [ksoftirqd/0] 
Hl Role a =i Se 0 0:00 
: /sbin/udevd --daemon 
i 1 4680 4680 4680 ? -1 Se 0 0:00 
us sbin/acpid) =e /etc 
" 1 4808 4808 4808 ? -1 $e 102 0:00 


| /sbin/syslogd -u syslog 




















凡是 rperp 一 栏 写 着 -1 的 都 是 没有 控制 终端 的 进程 ， 也 就 是 守护 进程 。 在 cowMaNp 一 列 用 5] 括 起 来 
的 名 字 表 示 内 核 线程 ， 这 些 线程 在 内 核 里 创建 ， 没有 用 户 空间 代码 ， 因 此 没有 程序 文件 名 和 命 
SÍT, 通常 采用 以 kx 开头 的 名 字 ， 表 示 Kernel。init 进 程 我 们 已 经 很 熟悉 了 ，ugeva 人 负责 维 

护 /qev 目 录 下 的 设备 文件 ，acpiad 负 责 电 源 管理 ，sys1oga 负 责 维护 /var/1og 下 的 日 志文 件 ， 可 以 
看 出 ， 守 护 进 程 通常 采用 以 a 结尾 的 名 字 ， 表 示 Daemon。 


创建 守护 进程 最 关键 的 一 步 是 调用 setsia 函 数 创 建 一 个 新 的 Session ， 并 成 为 Session Leader. 


i #include <unistd.h> 


















































































































































:pid t setsid (void); 






































该 函数 调用 成 功 时 返回 新 创建 的 Session 的 id (其 实 也 就 是 当前 进程 的 |d) ， 出 错 返回 -1。 

意 ， 调 用 这 个 函数 之 前 ， 当 前 进程 不 允许 是 进程 组 的 Leader， 否 则 该 冰 数 返回 -1。 要 保证 当前 
进程 不 是 进程 组 的 Leader 也 很 容易 ， 只 要 先 fork 再 调用 set sia 就 行 了 。fork 创 建 的 子 进程 和 父 
进程 在 同一 个 进程 组 中 ， 进程 组 的 Leader, 必然 是 该 组 的 第 一 个 进程 ， 所 以 子 进程 不 可 能 是 该 组 
的 第 一 个 进程 ， 在 子 进程 中 调用 setsid 就 不 会 有 问题 了 。 


成 功 调用 该 函数 的 结果 是 : 













































































































































































。 创建 一 个 新 的 Session， 当 前 进程 成 为 Session Leader， 当 前 进程 的 id 就 是 Session 的 id。 









































。 创建 一 个 新 的 进程 组 ， 当 前 进程 成 为 进程 组 的 Leader， 当 前 进程 的 id 就 是 进程 组 的 id 。 


。 如 果 当 前 进程 原本 有 
O AS 



































控制 终端 ， 则 它 失 去 这 个 控制 终端 ， 成 为 一 个 没有 控制 终端 的 进 
: 年 ， 原 来 的 控制 终端 仍然 是 打开 的 ， 仍 然 可 以 读 写 ， 但 只 是 一 个 
普通 的 打开 文件 而 不 是 控制 终端 了 。 







































































例 34.2. 创建 守护 进程 


: #include <stdlib.h> 
(tone bude <stdio.h> 
|: #include <fcntl.h> 


! void daemonize (void) 
ET 
| joel je joncls 


/* 


* Become a session leader to lose controlling 


a ff 
if ((pid = fork()) < 0) { 
perror ("fork"); 
exit (1); 
p else ii (oC l= 0) /= parame ~/ 


E T o 


setsid(); 


/* 


* Change the current working directory to the 


“if 

aie (Cne ASA << @) # 
jaxsnercroue (\/@lovela.ie )) p 
exit(1); 


D 1 X95 o 


} 


/* 
| ws Attachi Scalia cessions oram cue ts 
| /dev/null. 

i at] 
close(0); 
open("/dev/null", O RDWR); 


dup2(0, 1); 
| dup2(0 Z2) E 
p 
| int main(void) 
TE 
daemonize(); 
i while(1); 
:] 























为 了 确保 调用 setsia 的 进程 不 是 进程 组 的 Leader， 首 先 forxk 出 一 个 子 进程 ， 父 进程 退出 ， 然 后 
子 进程 调用 setsia 创 建新 的 Session， 成 为 守护 进程 。 按 照 守 护 进 程 的 惯例 ， 通 常 将 当前 工作 目 
录 切 换 到 根 目 录 ， 将 文件 摘 述 符 0、1、2 重 定向 到 /aev/null。Linux 也 提供 了 一 个 库 画 
数 qaemon (3) 实现 我 们 的 aaemonize 函 数 的 功能 ， 它 带 两 个 参数 指示 要 不 要 切换 Ve A ae BI A 
录 ， 以 及 要 不 要 把 文件 描述 符 0、1、2 重 定向 到 /dev/nul1。 
















































































































































































i IP ILD) AIRE TIME CMD 

: 11494 pts/0 00:00:00 bash 
| T3271 EG/ 00:00:00 ps 
PS jos x3 | grep a.out 


i iL 21927]0 3.59270 13/9270 Z =i IRS 1000 0305 o/a OUE 
| dd 19279 132772 ILAJA jos /O 1L92/ 72. Sar 1000 0:00 grep 

: a.out S SCRE 

: (关闭 终端 窗口 重新 打开 ， 或 者 注销 重新 登录 ) 
"S ps x43 | grep aout 
































i i, L32170 15270 13270 7 IERS 1000 Q21 o/a 0E 
3282 13393989 155397 132652 ES/L 3337 SF 1000 0:00 grep 
GO 


$ kilil 13270 





运行 这 个 程序 ， 它 变 成 一 个 守护 进程 ， 不 再 和 当前 终端 关联 。 用 ps 命令 看 不 到 ， 必 须 运行 带 * 参 
数 的 ps 命令 才能 看 到 。 另 外 还 可 以 看 到 ， 用 户 关闭 终端 窗口 或 注销 也 不 会 影响 守护 进程 的 运 
f. 
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1. 线程 的 概念 


我 们 知道 ， 进 程 在 各 自 独立 的 地 址 空间 中 运行 ， 进 程 之 间 共 享 数 据 需 要 用 mmap 或 者 进程 间 通 信 
机 制 ， 本 市 我 们 学 习 如 何在 一 个 进程 的 地 址 空间 中 执行 多 个 线程 。 有些 情 况 需 要 在 一 个 进程 
同时 执行 多 个 控制 流程 ， 这 时 候 线程 就 派 上 了 用 场 ， 比如 实现 一 个 图 界面 的 下 载 软件 ， CH 
[irm BEAT FE, SEQRRUREREHI P BI BER SEE, 289—273 ROC BT FRENA, 
竺 和 处 理 从 多 个 网 络 主机 发 来 的 数据 ， 这 些 任务 都 需要 一 个 “等 待 -处 理 ” 的 循环 ， 可 以 用 多 线程 
实现 ， 一 个 线程 专门 负责 与 用 户 交 互 ， 另外 几 个 线程 每 个 线程 负责 和 一 个 网 络 主机 通信 。 









































































































































NS li 




























































































































































































以 前 我 们 讲 过 ，main 函 数 和 信号 处 理 函 数 是 同一 个 进程 地 址 空间 中 的 多 个 控制 流程 ， 多 线程 也 
是 如 此 ， 但 是 比 信号 处 理 函 数 更 加 灵活 ， 信 和 号 处 理 函 数 的 控制 流程 只 是 在 信号 递 达 时 产生 ， 在 
处 理 完 信 和 号 之 后 就 结束 ， 而 多 线程 的 控制 流程 可 以 长 期 并 存 ， 操 作 系 统 会 在 各 线程 之 间 调 度 和 
切换 ， 就 像 在 多 个 进程 之 间 调 度 和 切换 一 样 。 由 于 同一 进程 的 多 个 线程 共享 同一 地 址 空间 ， 因 
此 Text Segment. Data Segment 都 是 共享 的 ， 如 有 果 定 义 一 个 函数 ， 在 各 线程 中 都 可 以 调用 ， 如 
果 定 义 一 个 全 局 变量 ， 在 各 线程 中 都 可 以 访问 到 ， 除 此 之 外 ， 各 线程 还 共享 以 下 进程 资源 和 环 
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。 PIAS 



























































































































































































































































。 每 种 信号 的 处 理 方 式 (srce sic DFA A ENAR SALE KAO 
。 当前 工作 目录 



















































































。 用 户 id 和 组 id 
但 有 些 资 源 是 每 个 线程 各 有 一 份 的 : 
。 线程 id 
。 上 上下文， 包括 各 种 寄存 器 的 值 、 程 序 计数 器 和 栈 指针 
。 栈 空间 


e. errno Ti 
。 信 号 屏蔽 字 
。 调度 优先 级 


我 们 将 要 学 习 的 线程 库 函 数 是 由 POSIX 标 准 定 义 的 ， 称 为 POSIX thread 或 者 pthread 。 
在 Linux LAR ERI? AY WF ibpthreaddt 享 库 中 ， 因此 在 编译 时 要 加 上 -1pthread 选 项 。 
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. 线程 控制 
2.1. 创建 线程 


: #include <pthread.h> 


‘int pthread create(pthread t *restrict thread, 
E const pthread attr t *restrict attr, 
void *(*start routine) (void*), void *restrict arg); 














返回 值 : 成 功 返 回 0， 和 失败 返回 错误 导 。 以 前 学 过 的 系统 函数 都 是 成 功 返 回 0， 和 失败 返回 -1， 而 

错误 号 保存 在 全 局 变量 errno 中 ， 而 pthread 库 的 函数 都 是 通过 返回 值 返 回 错误 号 ， 虽然 每 个 线 

ee ul 日 这 是 为 ] 兼容 其 它 函 数 接口 而 提供 的 ，pthread 库 本 身 并 不 使 用 它 ， 通 
返回 值 返 回 错误 人 码 更 加 清晰 。 


在 一 个 线程 中 调用 pthread_create() 创 建新 的 线程 后 ， 当 前 线程 从 pthread_create() 返 回 继续 往 下 
f fT ， 而 新 的 线程 所 # 行 的 代码 由 我 们 传 给 pthread_ create 的 水 数 指针 start_ routine% 

Eo start -routine KAM TAR, 是 通过 pthread_ create 的 arg 人 参数 传递 给 合 它 的 ， 该 参数 的 
类 型 为 voida * 这 个 指针 按 什 么 类 型 解释 由 调用 者 目 己 定义 。 start_routine 的 返回 值 类 型 也 

是 voia aa) 这 个 指针 的 含义 同样 由 调用 者 自己 定义 。start _routine 返 回 时 ， 这 个 线程 就 退出 
Í, 其 它 线 程 可 以 调用 pthreagd_ le routine 的 返 回 值 ， 类 似 于 父 进程 调用 wait (2) 得 
到 子 进 程 的 ; 退出 状态 ， 稍 后 详细 介 Züpthread joine 


pthread_create 成 功 返 回 后 ， 新 创建 的 线程 的 id 被 填写 到 thnreag 参 数 所 指向 的 内 存单 元 。 我 们 知 
道 进 程 id 的 类 型 是 pia_t ， 每 个 进程 的 id 在 整个 系统 中 是 唯一 的 ， 调 用 getpia (2) 可 以 获得 当前 进 
程 的 id ， 是 一 个 正 整 Ext. 线程 id 的 类 型 是 threada tt ， 它 只 在 当前 进程 中 保证 是 唯一 的 ， 在 不 同 
的 系统 中 threadt 这 个 类 型 有 不 同 的 实现 ， 它 可 能 是 一 个 整数 值 ， 也 可 能 是 一 个 结构 体 ， 也 可 

能 是 一 个 地 址 ， 所 以 不 能 简单 地 当成 整 X print et] EN, T seit @ ) 可 以 获得 当前 线 
程 的 id 。 


attr 人 参数 表示 线程 属性 ， 本 章 不 深入 讨论 线程 属性 ， 所 有 代码 例子 都 传 wurrz 给 attr 参 数 ， 表 示 
线程 属性 取 缺 省 值 ， 感 兴趣 的 读者 可 以 参考 [APUE2e]。 首 先 看 一 个 简单 的 例子 : 


: #include <stdio.h> 

: #include <string.h> 
: #include <stdlib.h> 
: #include <pthread.h> 
: #include <unistd.h> 



































































































































































































































































































































































































































































































































































































































“pthread 七 ntid; 


; void printids(const char *s) 
a 
: pioke pid; 
pthread_t tid; 


pid getpid(); 

BLEI pthread self(); 

printf("$£s pid $u tid $u (0x%x)\n", s, (unsigned int)pid, 
(unsigned int)tid, (unsigned int)tid); 


: void *thr fn( 
E 


i} 


: int main(void) 


a 


(eese = 


ase lerr T= ©) 4 


strerror (err) 


} 


printids ("main thread:"); 


sleep 


return 0; 





可 知 在 Linux E, 
相同 的 进 和 


由 于 























: $ gcc main.c 
SO 
imain thread: 
i new thread: 








pthread createll']f 


printids (arg); 
return NULL; 


abge. Gres 


void *arg) 



















pthread create(&ntid, NULL, thr fn, "new thread: "); 
fprinei (stderr, oan Greece Ennead wea. 


); 
exit(1); 


(1); 


-lpthread 


pid 7398 tid 3084450496 (0xb7d8facO0) 
pid 7398 tid 3084446608 (0xb7d8eb90) 














HE 




























































































普 误 码 不 保存 在 srrno 中 ， 因 此 不 能 直接 















































先 用 strerror (3) JE EE A 





tin 





思考 题 : 主线 程 在 


es selfll 


任意 一 个 线程 调用 了 exit 或 _exit ， 则 整个 进程 的 所 有 线程 都 终止 ， 由 于 从 main 哨 
数 return 也 相当 于 调用 exit ， 为 了 防止 新 创 建 的 线程 还 没有 得 到 执行 就 终止 ， 我 们 在 main 函 


数 return 之 前 延 时 1 秒 ， 




















吴 码 转换 成 错误 信息 再 打印 。 










































































thread_t 类 型 是 一 个 地 址 值 ， 属 于 同一 进程 的 多 个 线程 调用 getpia (2) 可 以 得 到 
as, 而 调用 pthread_self (3) 得 到 的 线程 号 各 不 相同 。 


Hperror (3) 打印 错误 信息 ， 可 以 


这 只 是 一 种 权宜 之 计 ， 即 使 主线 程 等 待 1 秒 ， 内 核 也 不 一 定 会 调度 新 创 
建 的 线程 执行 ， 下 一 节 我 们 会 看 到 更 好 的 办 法 。 



































个 全 局 变量 ntia 














保存 了 新 创建 的 线程 的 id ， 如 果 新 创建 的 线程 不 调 




















2.2. 终止 线程 




















而 是 直接 打印 这 个 ntia， 能 不 能 达到 同样 的 效 采 ? 














如 FH 
。 MATERA 









































需要 只 终止 某 个 线程 而 不 终止 整个 进程 ， 可 以 有 三 种 方法 : 
ZÜreturne I 这 种 方法 对 主线 程 不 适 BH, Mmain PR 数 return 相 当 于 调用 exit 。 
e 一 个 线程 可 以 调用 bthread_cancel1 终 止 同一 进程 的 另 一 个 线程 。 
























































e 线程 可 以 调用 ptnread_exit 终 止 自己 。 


用 pthread_ cancel% JE T 同步 和 异步 两 种 情况 ， 比较 复杂 ， 本 章 不 打算 详细 介绍 
可 以 参考 [APUE2e]。 下 面 介 pthread exit HJ#llpthread_ join 的 用 法 。 
























































: #include <pth 


: void pthread_ 


read.h» 


exit(void *value ptr); 





ids 


, EK 





IN 





















































value_ptr 是 void * 类 型 ， 和 线程 函数 返回 值 的 用 法 
这 个 指针 。 








样 ， 其 它 线程 

































































需要 注意 ，pthread_exit 或 者 return 返 回 的 指针 所 指向 的 内 存单 元 必须 是 全 局 的 或 者 是 
用 malloc 分 配 的 ， 不 能 在 线程 函数 的 栈 上 分 配 ， 
已 经 退出 了 。 













































































办 为 当 其 它 线程 得 到 这 个 返回 指针 时 线 和 





: #include <pthread.h> 


: int pthread join(pthread t thread, void **value ptr); 





返回 值 : 成 功 返 回 0， 失 败 返 回 错误 号 


调用 该 函数 的 线程 将 挂 起 等 待 ， 
过 pthreaaq_join 得 到 的 终止 状态 是 不 同 的 ， 总 络 如 下 : 


[u] , value_ptr 所 指向 的 上 



























































M M 


° 如 果 thread 线 程 通过 return 返 


回 值 。 






























































E 


可 以 调用 thread_join 获 得 


直到 id 为 threada 的 线程 终止 。threaa 线 程 以 不 同 的 方法 终止 ， 通 


元 里 存放 的 是 threaad 线 程 函 数 的 返 




















。 如 果 thread 线 程 被 别 的 线程 调用 pthread_cance1l 异 肖 终 止 掉 




















value_ptr 有 所 指向 的 











元 里 存 




















a) 
放 MERZ PTHREAD_CANCELED o 


















































. 如 果 tnread 线 程 是 白 


给 pthread_exit 的 参数 。 




















如 果 对 thread 线 程 的 终止 状态 不 感 兴趣 ， 可 以 传 NULL 给 value_ptr 参 数 。 


看 下 面 的 例子 (省略 了 出 错 处 理 ) 





























己 调 用 pthreag_exit 终 止 的 ， value_ptr 所 指 问 的 单元 存放 的 是 传 


m 


i) 


i) 


i #include 
: #include 
: #include 
: #include 


i void *th 
I 


| void *th 
Dd 


‘int main 


i { 


pthread create(&tid, NULL, 
pthread join(tid, 
printf("thread 1 exit code %d\n", 


pthread create(&tid, NULL, 


pthread t 
void 


«stdio.h» 
<stdlib.h> 
<pthread.h> 
<unistd.h> 


r fnl(void *arg) 


printf ("thread 1 returning\n"); 
return 


(SZ OU Cm NIS 


r fn2(void *arg) 





printf ("thread 2 exiting\n"); 
pthread exit((void *)2); 


| void "leue Sets (vele ue 
La 
| while(1) { 


printf("thread 3 writing\n"); 
sleep(1); 


(void) 


dL elg 

WaS 

Cn nN 
&tret); 

(int)tret); 


CRTEZ NU) E> 


pthread_join(tid, &tret); 
printf ("thread 2 exit code %d\n", (int)tret); 
















pthread_create(&tid, NULL, thr_fn3, NULL); 
sleep (3); 

pthread_cancel (tid); 

pthread_join(tid, &tret); 

Brnmeel( aeac ee eo mo cin (a teeta) ie 


return 0; 














returning 

i thread 1 exit code 1 
thread 2 exiting 
thread 2 exit code 2 
thread 3 writing 
“thread 3 writing 
thread 3 writing 
thread 3 exit code -1 




















可 见 在 Linux 的 pthread 库 中 常数 pTHREAD_cCANCELED 的 值 是 -1。 可 以 在 头 文 件 pthreaad.n 中 找到 它 
的 定义 : 











































































































般 情 况 下 ， 线 程 终止 后 ， 其 终止 状态 一 直 保 留 到 其 它 线程 调用 bthread_join 获 取 它 的 状态 为 
止 。 但 是 线程 也 可 以 被 置 为 detach 状 态 ， 这 样 的 线程 一 旦 终止 就 立刻 回收 它 占 用 的 所 有 资源 ， 
而 不 保留 终止 状态 。 不 能 对 一 个 已 经 处 于 detach 状 态 的 线程 调用 pthreaq_join ， 这 样 的 调用 将 
返回 EINVAL。 对 一 个 尚未 detach 的 线程 调用 bthread_join 或 pthreadq_detach 都 可 以 把 该 线程 置 
为 detach 状 态 ， 也 就 是 说 ， 不 能 对 同一 线程 调用 两 次 pthreadq_join， 或 者 如 果 已 经 对 一 个 线程 
调用 了 pthreaq_detach 就 不 能 再 调用 pthreaqd_join 了 。 


| #include <pthread.h> 













































































































































































‘int pthread detach(pthread t tid); 











返回 值 : 成 功 返 回 0， 失 败 返 回 错误 号 。 




















下 一 页 


1. 线程 的 概念 EXER 





3. 线程 间 同 步 





第 35 章 线程 


3. 线程 间 同 步 


3.1. mutex 





























多 个 线程 同时 访问 共享 数据 时 可 能 会 冲突 ， 这 跟前 面 讲 号 时 所 说 的 可 重 入 性 是 同样 的 辣 题 。 
比如 两 个 线程 都 要 把 某 个 全 局 变量 增加 1， 这 个 操作 在 某 平台 需要 三 条 指令 完成 : 


1. 从 内 存 读 变量 值 到 寄存 妖 
2. 寄存 器 的 值 加 1 
3. 将 寄存 器 的 值 写 回 内 存 


假设 两 个 线程 在 多 处 理 器 平台 上 同时 执行 这 三 条 指令 ， 则 可 能 导致 下 图 所 示 的 结果 ， 最 后 变量 
只 加 了 一 次 而 非 两 次 。 









































































































































图 35.1. 并 行 访问 冲突 
CPU1 执 行 CPU2 执 行 SBMA 
线程 A 的 指令 线程 A 的 指令 单元 的 值 
mov 0x8049540, %eax | HEHE 5 
(eax = 5) 
add $0x1, %eax mov 0x8049540, %eax 5 
(eax = 6) (eax = 5) 
mov %eax, 0x8049540 add $0x1, %eax 6 
(eax = 6) (eax = 6) 
RHES mov %eax, 0x8049540 6 


(eax = 6) 


BP, WAR TARE TE AND 8 EDUC, PENERE e ? 


我 们 通过 一 个 简单 的 程序 观察 这 一 现象 。 上 图 所 描述 的 现象 从 理论 上 是 存在 这 种 可 能 的 ， 但 实 
际 运 行程 序 时 很 难 观察 到 ， 为 了 使 现象 更 容易 观察 到 ， 我 们 把 上 述 三 条 指令 做 的 事情 用 更 多 条 
指令 来 做 : 

















































































































val = counter; 
printf("£x: d\n", (unsigned int) pthread_self(), 


counter = val + 1; 




















我 们 在 “ 读 取 变量 的 值 ? 和 "把 变量 的 新 值 保存 回去 "这 两 步 操作 之 间 插 入 一 个 erintf 调 用 ， 它 会 执 
行 write 系统 调用 进 内 核 ， 为 内 核 调度 别 的 线程 执行 提供 了 一 个 很 好 的 时 机 。 我 们 在 一 个 循环 中 
重复 上 述 操作 几 干 次 ， 就 会 观察 到 访问 冲突 的 现象 。 






































i #include <stdio.h> 

i #include <stdlib.h> 

: #include <pthread.h> 

: #define NLOOP 5000 

inte counter; /* incremented by thread 


: void *doit (void *); 


: int main(int argc, char **argv) 






































E 

| pthread_t tidA, tidB; 
pthread create(&tidA, NULL, &doit, NULL); 
pthread create(&tidB, NULL, &doit, NULL); 
/* wait for both threads to terminate */ 
pthread join(tidA, NULL); 
pthread join(tidB, NULL); 

| return 0; 

Pa 

: void *doit (void *vptr) 

: { 

i int aby, seule 
/* 


s */ 


* Fach thread fetches, prints, and increments the counter 


: NLOOP times. 
: * The value of the counter should increase 


“7 


for (i = 0; i < NLOOP; i++) { 


monotonically. 


val = counter; 
: printf("£x: d\n", (unsigned int)pthread self(), 
Pel sp 5 
| counter = val + 1; 
} 


return NULL; 


























我 们 创建 两 个 线程 ， 各 自 把 counter 增 加 5000 次 ， 正 常情 况 下 最 后 coun 
















































































ot aout: 
: b76acb90: 
i b76acb90: 
i b76acb90: 
: b76acb90: 
: b76acb90: 
i b7eadb90: 
i b7eadb90: 
: b7eadb90: 
: b7eadb90: 
i b7eadb90: 
i b76acb90: 
: b76acb90: 
: b7eadb90: 
i b76acb90: 


ADAKDUAWNHRUBWNE 








ter 应 该 等 于 10000， 但 


事实 上 每 次 运行 该 程序 的 结果 都 不 一 样 ， 有 时 候 数 到 5000 多 ， 有 时 候 数 到 6000 多 。 
































对 于 多 线程 的 程序 ， 访 问 冲突 的 问题 是 很 普遍 的 ， 解决 的 办 法 是 引入 互 斥 锁 (Mutex Mutual 
Exclusive Lock) ， 获 得 锁 的 线程 可 以 完成 “ 读 - 修 改 - 写 " 的 操作 ， 然 后 释放 锁 给 其 它 线程 ， 没 有 


















































获得 锁 的 线程 只 能 等 待 而 不 能 访问 共享 数据 ， 这 样 “ 读 -修改 - 写 " 三 步 操 






































H 











芷 组 成 一 个 原子 操作 ， 要 


















































么 都 执行 ， 要 么 都 不 执行 ， 不 会 执行 到 中 间 被 打 断 ， 也 不 会 在 其 它 处 

















LE 钥 上 并 行 做 这 个 操作 。 
































Mutex 用 pthread mutex t 类 型 的 变量 表示 ， 可 以 这 样 初始 化 和 销毁 : 


X 


























: #include <pthread.h> 


|! int pthread mutex destroy(pthread mutex t *mutex); 
"intepphreadsmureseinib(prphreadsmbtexst reSt ermute, 
: const pthread mutexattr t *restrict attr); 


| pthread mutex t mutex = PTHREAD MUTEX INITIALIZER; 




















返回 值 : 成功 返回 9， 失 败 返 回 错误 号 


TRF o 


























pthread mutex initPÉ Zi Mutexfi 1545, Z XX acceitxeMutexH'] TE, lll acer Anois ze 
示 缺 省 属性 ， 本 章 不 详细 介绍 Mutex 属 性 ， 感 兴趣 的 读者 可 以 参考 [APUE2el]。 
用 pthread_mutex_init 国 数 初 始 化 的 Mutex 可 以 用 pthread_mutex_destroy 销 
是 静态 分 配 的 (全 局 变量 或 static 变 量 ) ， 也 可 以 用 安定 义 pPTHREAD_MUTEX_INITIALIZER 来 初始 
化 ， 相 当 于 用 pthreaad_mutex_init 初 始 化 并 且 attr 人 参数 为 Norz。Mutex 的 加 锁 和 解锁 操作 可 以 用 
RY PRA: 






































毁 。 如 果 Mutex 变 量 

































































: #include <pthread.h> 


i dane pthread mutex lock(pthread mutex t *mutex); 
省志 pthread mutex trylock(pthread mutex t *mutex); 
: int pthread mutex unlock(pthread mutex t *mutex); 




















I 


返回 值 : 成 功 返 回 0， 失 败 返 回 错误 号 。 
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一 个 线程 可 以 调用 pthread_mutex_lock 获 得 Mutex， 女 





























上 果 这 时 另 一 个 线程 已 经 调 
用 pthread_mutex_lock 获 得 了 该 Mutex， 则 当前 线程 需要 挂 起 等 待 ， 直 到 另 一 个 线程 调 
用 pthread_mutex_unlock 释 放 Mutex， 当 前 线程 被 唤醒 ， 才 能 获得 该 Mutex 并 继续 执行 。 
pile 


一 个 线程 既 想 获得 锁 ， 又 不 想 挂 起 等 待 ， 可 以 调用 pthread_mutex_trylock 44 
被 另 一 个 线程 获得 ， 这 个 函数 会 失败 返回 EBUSY ， 而 不 会 使 线程 挂 起 等 待 


3 SPIT o 
现在 我 们 用 Mutex 解 决 先前 的 问题 : 



















































































Mutex 已 经 

















: #include <stdio.h> 
if Phe ude ssid lip 
: #include <pthread.h> 


i #define NLOOP 5000 


i int counter; fis 


incremented by threads */ 
: pthread_mutex_t counter mutex 


= PTHREAD MUTEX INITIALIZER; 
| void *doit(void *); 


TTE main(int argc, char **argv) 
ET 
: pthread t tidA, tidB; 


pthread create(&tidA, NULL, 


doit, NULL); 
pthread create(&tidB, NULL, 


doit, NULL); 





/* wait for both threads to terminate */ 
pthread join(tidA, NULL); 
pthread join(tidB, NULL); 














return 0; 


d 


| void *doit(void *vptr) 


i 


int al euls 


/* 
| * Each thread fetches, prints, and increments the counter 
; NLOOP times. 
| * The value of the counter should increase monotonically. 


v 


for (i = 0; i < NLOOP; i++) { 
pthread_mutex_lock (&counter_mutex) ; 


val = pouce 
i printf("£x: d\n", (unsigned int) pthread_self(), 
P wed 4 d) 
counter = val + 1; 


pthread mutex unlock(&counter mutex); 


} 


return NULL; 




















这 样 运 行 结果 就 正常 了 ， 每 次 运行 都 能 数 到 10000。 





























看 到 这 里 ， 读 者 一 定 会 好 奇 : Mutex 的 两 个 基本 操作 lock 和 unlock 是 如 何 实 现 的 呢 ， 假 
设 Mutex 变 量 的 值 为 1 表示 互 斥 锁 空 间 ， 这 时 某 个 进程 调用 lock 可 以 获 得 锁 ， 而 Mutex 的 值 为 0 表 
示 互 斥 锁 已 经 被 某 个 线程 获得 ， 其 它 线程 再 调用 lock 只 能 挂 起 等 待 。 那 么 lock 和 unlock 的 伪 代 三 


a 




















































































































if (mutex > 0) { 
mutex = 0; 
return 0; 


挂 起 等 得 ; 


goto lock; 


} else 





‘ unlock: 


mutex = 
唤醒 等 和 ddr 的 线程 ; 


return 0; 

























































































unlock 操 作 唤醒 等 待 线程 的 步骤 可 以 有 不 同 的 实现 ， 可 以 只 唤醒 一 个 等 待 线程 ， 也 可 以 唤醒 
待 该 Mutex 的 线程 ， 然 后 让 被 唤醒 的 这 些 线程 去 竞争 获得 这 个 Mutex， 竞 争 失 败 的 线程 继 
ZJE 等 待 。 

























































































细心 的 读者 应 该 已 经 看 出 问题 了 : 对 Mutex 变 量 的 读 取 、 判 断 和 修改 不 是 原子 操作 。 如 果 两 个 线 
旦 同时 调用 lock ， 这 时 Mutex 是 1， 两 个 线程 都 判断 mutex>0 成 立 ， 然 后 其 中 一 个 线程 
置 mutex=0， 而 另 一 个 线程 并 不 知道 这 情况 ， 也 置 mutex=0， 于 是 两 个 线程 都 以 为 自己 获得 了 



































eran’ 














































































































为 了 实现 互 斥 锁 操 作 ， 大 多 数 体 系 台 构 都 提供 了 swap 或 exchange 指 仿 ， 该 指令 的 作用 是 把 寄存 
器 和 内 存单 元 的 数据 相交 换 ， 由 于 只 有 一 条 指令 ， 保 证 了 原子 性 ， 即 使 是 多 处 理 絮 平台， 访问 
内 存 的 总 线 周 期 也 有 先后 ， 一 个 处 理 名 器 上 的 交换 指 令 执行 时 男 一 个 处 理 絮 的 交换 指令 只 能 等 待 
总 线 周期 。 现 在 我 们 把 lock 和 unlock 的 伪 代 码 改 一 下 (以 x86 的 xchg 指 令 为 例 ) : 


























































































































movb $0, %al 

xchgb $al, mutex 

if (al AFARA > 0) { 
return 0; 

} else 


挂 起 等 得 ; 












































goto lock; 


movb $1, mutex 
Ve WERE PEMut ex 的 线程， 


return 0; 

















的 释放 锁 操 作 同样 只 月 


也 许 还 有 读者 好 奇 ，“ 挂 

















一 条 指令 实现 ， 以 保 训 


a Af" Rp tfo RU 



























































ZirMutex EEESRGR, HE 























上 调度 器 函数 切换 到 别 的 线 各 






































可 能 切换 到 被 唤 














是 的 线程。 























般 情 况 下 ， 如 3 








同一 个 线程 先后 两 次 调 
| 的 线程 释放 锁 ， 然 而 锁 正 




















作 如 何 实现 ?每 个 Mutex 有 一 个 等 待 队 






















































































'， 然 后 置 线 桩 状态 为 睡眠 ， 




















的 其 它 线程 ， 只 需 从 等 待 队 






































把 它 的 状态 从 昌 





有 眼 改 为 就 绪 ， 力 




































































锁 ， 因 此 就 永远 处 于 挂 起 等 待 状态 了 ， 这 叫 
f: 线程 A 获 得 了 锁 1， 线 程 B 获 得 了 锁 2， 这 
释放 锁 2 ， 而 这 时 线程 B 也 调 
线程 A 和 B 都 永远 处 了 



































































































































HAY, Hj 
着 的 ， 该 线程 又 被 挂 起 而 没有 机 会 释放 









































HAS, f 





I 入 就 绪 队 列 ， 那 么 下 次 调度 器 函数 执行 时 就 有 











的 死 锁 情形 是 这 






















































































图 获得 锁 1， 结 
] F 挂 起 状态 了 。 不 难 想象 ， 如 细 
可 能 死 锁 的 问题 将 会 变 得 复杂 和 难以 判断 。 


十 应 该 尽量 避免 同时 获 和 
程 在 需要 多 个 锁 时 都 按 相 同 的 先后 | 
个 程序 中 用 到 锁 1、 


H 


锁 2< 锁 3， 那 么 所 有 线程 


AE Z 


多 的 线程 和 更 











































































































果 要 为 所 有 的 锁 确 定 
Hf pthread_mutex_lock ji 




















oa AN 























较 困 难 ， 则 应 该 尽量 使 





3.2. Condition Variable 






























































































































































Condition Variable 


ne pthread cond destroy(pthread cond t *cond); 
i int pthread cond init (pthread cond t *restrict cond, 
const pthread condattr t *restrict attr); 
"upbhtead*cond*t cond = PTHREAD COND INITIALIZER; 


返回 值 : 成 功 返 回 9， 失 败 返 回 和 
和 Mutex 的 初始 化 和 销毁 类 似 ，p 





























条 件 成 立 才 能 继续 往 下 执行 ， 现 在 这 个 条 件 
AURI, 


























SEE 



































果 是 需要 挂 起 等 
让 起 等 待 线程 A 释放 锁 1， 
多 的 锁 ， 有 没有 





定 有 必要 这 人 么 做 ， 则 有 一 个 原则 : 如 果 所 有 线 
WEE 〈 常 见 的 是 按 Mutex 变 量 的 地 址 顺序 ) 获 
锁 2、 锁 3， 它 们 所 对 应 的 Mutex 变 量 的 地 址 
在 需要 同时 获得 2 个 或 3 个 锁 时 都 应 该 按 锁 1、 锁 2、 锁 3 的 顺序 获 
Hpthread mutex trylock ij 





炎 ， 则 不 会 出 











星 线 程 A 继 续 执 
































































































































的 变量 表示 ， 可 以 这 相 


HEAD COND INITIALI ZER] Ý 


i int pthread_cond_timedwait (pthread_cond_t *restrict cond, 











6 化 ， 相 当 于 








或 者 唤醒 等 待 这 
初始 化 和 销 





























i #include <pthread.h> 





chread_cond_in 让 函数 初始 化 一 个 Condition Variable, attr& 
BCA Nui WEAN IR BE, pthread_cond_destroy PÁ% 销毁 一 个 Condition Variable 。 如 
& Condition Variable 是 静态 分 配 的 ， 也 可 以 























Hpthread_cond_init MACH UA fF HatezZ Juri. Condition Variable 的 操作 可 以 用 下 列 函 


| #include <pthread.h> 


H 


F 锁 已 经 被 占用 ， 该 线程 





pthread_mutex_t *restrict mutex, 
: const struct timespec *restrict abstime); 
porn pthread cond wait (pthread cond t *restrict cond, 
: pthread mutex t *restrict mutex); 
i int pthread cond broadcast (pthread cond t *cond); 
: int pthread cond signal(pthread cond t *cond) ; 











返回 值 : 成 功 返 回 0， 失 败 返 回 错误 号 。 


可 见 ， 一 个 Condition Variable 总 是 和 一 个 Mutex 搭 配 使 用 的 。 一 个 线程 可 以 调 
Hptnread. cona wait 1E— "f Condition Variable E 阻塞 等 待 这 个 函数 做 以 下 三 步 操 作 : 






























































1. 释放 Mutex 


2. BASES 
































3. 当 被 唤醒 时 ， 重 新 获得 Mutex 并 返回 


pthread_cond _timedwait KODA — NAANA% ET AXE SERERE] , 如 果 到 达 了 abstime 所 指 
定 的 时 刻 仍然 没有 别 的 线程 来 唤醒 当前 线程 ， 就 返回 arrMgpour 。 一 个 线程 可 以 调 

HH pthread_cond_signal "RW: SE-SCondition Variable 上 等 待 的 另 一 个 线程 ， 也 可 以 调 

Hp thread cond broadcast ETE ixl Condition Variable 上 等 待 的 所 有 线程 。 


面 的 程序 演示 了 一 个 生产 者 -消费 者 的 例子 ， 生 产 者 生产 一 个 结构 体 串 在 链表 的 表 头 上 ， 消 费 
者 从 表 头 取 走 结构 体 。 





















































Dy 
































































































































































































































i #include <stdlib.h> 
: #include <pthread.h> 
: #include <stdio.h> 


‘struct msg { 
: struct msg *next; 
int num; 


Br 


| struct msg *heag; 
: pthread cond t has product = PTHREAD COND INITIALIZER; 
i pthread mutex t lock = PTHREAD MUTEX INITIALIZER; 





| void *consumer(void *p) 
Ae 


struct msg *mp; 


for (;;) { 
pthread mutex lock(&lock); 


while (head == NULL) 
pthread cond wait(&has product, &lock); 
mp = head; 


head = mp-»next; 
pthread_mutex_unlock (&lock) ; 
printf("Consume %d\n", mp->num) ; 
free (mp); 

Sleep(rand() $ 5); 


D 


i void *producer(void *p) 
Fl 
struct msg *mp; 
ope (mp Ww 
mp = malloc(sizeof(struct msg)); 
mp-»num = rand() $ 1000 + 1; 
printf("Produce %d\n", mp-»^num); 
pthread mutex lock(&lock); 
mp-»next - heag; 
head = mp; 


pthread_mutex_unlock (&lock) ; 
pthread_cond_signal (&has_product) ; 
sleep(rand() % 5); 






































} 

:] 

qn main(int argc, char *argv[]) 

Bf 

| pthread t pid, cid; 

srand (time (NULL)); 

pthread create(&pid, NULL, producer, NULL); 
: pthread create(&cid, NULL, consumer, NULL); 
pthread join(pid, NULL); 

: pthread join(cid, NULL); 

return 0; 

i} 








执行 吉 果 如 下 : 


ROME TUS 

! Produce 744 
i Consume 744 
PP bodiccss O17 
: Produce 881 
: Consume 881 
i Produce 911 
: Consume 911 
: Consume 567 
: Produce 698 
: Consume 698 











习题 



































1、 在 本 市 的 例子 中 ， 生 产 者 和 消费 者 访问 链表 的 顺序 是 LIFO 的 ， 请 修改 程序 ， 把 访问 顺 
成 FIFO。 
































3.3. Semaphore 





FEE 





























Mutex 变 量 是 非 0 即 1 的 ， 可 看 作 一 种 资源 的 可 用 数量 ， 初 始 化 时 Mutex 是 1， 表 示 有 一 个 可 
































源 ， 加 锁 时 获得 该 资源 ， 将 Mutex 减 到 0， 表 示 不 再 有 可 
将 Mutex 重 新 加 到 1， 表 示 又 有 了 一 个 可 用 资源 。 


资源 ， 解 锁 时 释放 该 资源 ， 






























































ats 











信号 量 (Semaphore) 和 Mutex 类 似 ， 表 示 可 用 资源 的 数量 ， 和 Mutex 不 同 的 是 这 个 数量 可 以 大 



























































进程 的 线程 间 同 步 ， 也 可 用 于 不 同 进程 间 的 同步 。 











: #include <semaphore.h> 


ne sem init (sem t *sem, int pshared, unsigned int value); 
: int sem wait (sem t *sem); 

i int sem trywait(sem t *sem); 

emus sem post(sem t * sem); 

: int sem destroy(sem t * sem); 





本 节 介 绍 的 是 POSIX semaphore 库 函数 ， 详 见 sem_overview(7)， 这 种 信和 号 量 不 仅 可 用 于 同一 












































semaphore 变 量 的 类 型 为 sem_t， sem _init0 初 始 化 一 个 semaphore 变 量 ，value 参 数 表示 可 用 资 









































源 的 数量 ，pshared 参 数 为 0 表示 信和 号 量 用 于 同一 进程 的 线程 间 同 步 ， 本 节 只 介绍 这 种 情况 。 在 
























































用 完 semaphore 变 量 之 后 应 该 译 sem _destroy() FE 与 semaphore 相 关 的 资源 。 










































































调用 sem_wait() 可 以 获得 资源 ， 使 semaphore 的 值 减 1， 如 采 调 用 sem_wait() 时 semaphore 的 值 
已 经 是 0， 则 挂 起 等 等 。 如 果 不 希 望 挂 起 等 得 ,可 以 调用 sem_trywait()。 调 用 sem_post() 可 以 释 
放 资 源 ， 使 semaphore 的 值 加 1， 同 时 唤醒 挂 起 等 待 的 线程 。 


上 一 节 生产 者 一 消费 者 的 例子 是 基于 链表 的 ， 其 空间 可 以 动态 分 配 ， 现 在 基于 固定 大 小 的 环形 
队列 重 写 这 个 程序 : 

| #include <stdlib.h> 

: #include <pthread.h> 

i #include <stdio.h> 

; #include <semaphore.h> 
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i #define NUM 5 
i int queue [NUM]; 
oem © blank_number, product_number; 


i void *producer (void *arg) 






































c 
: aime {> = OF 
while (1) { 
sem_wait (&blank_number) ; 
queue[p] = rand() % 1000 + 1; 
printf("Produce %d\n", queue[p]); 
sem_post (&product_number) ; 
p = (p*1)$NUM; 
Sleep (rand()$5); 
| } 
Ey 
i void *consumer (void *arg) 
B4 
: ioe © = Of 
while (1) { 
sem wait(&product number); 
printf("Consume %d\n", queue[c]); 
queue[c] = 0; 
sem post(&blank number); 
c = (c+1) NUM; 
sleep (rand()%5); 
} 
`} 
E NE main(int argc, char *argv[]) 
'{ 
: DEhreadme pcd erd, 
: sem init(&blank number, 0, NUM); 
: sem init(&product number, 0, 0); 
: pthread create(&pid, NULL, producer, NULL); 
pthread create(&cid, NULL, consumer, NULL); 
: pthread_join(pid, NULL); 
: pthread join(cid, NULL); 
i sem destroy(&blank number); 
i sem_destroy (&product_number) ; 
return 0; 
:] 





习题 





























1、 本 节 和 上 一 节 的 例子 给 出 一 个 重要 的 提示 : 用 Condition Variable 可 以 实现 Semaphore。 请 
用 Condition Variable 实 现 Semaphore ， 然 后 用 自己 实现 的 Semaphore 重 写本 节 的 程序 。 


3.4. 其 它 线程 间 同 步 机 制 


如 有 果 共 享 数据 是 只 读 的 ， 那 么 各 线程 读 到 的 数据 应 该 总 是 一 致 的 ， 不 会 出 现 访问 冲突 。 只 要 有 
































































































































一 个 线程 可 以 改写 数据 ， 就 必须 考虑 线程 间 同 步 的 问题 。 由 此 引出 了 读者 写 者 锁 (Reader- 
Writer Lock) 的 概念 ，Reader 之 间 并 不 互 斥 ， 可 以 同时 读 共 享 数据 ， 而 Writer 是 独占 的 
(exclusive) ， 在 Writer 修 改 数据 时 其 它 Reader 或 Writer 不 能 访问 数据 ， 可 见 Reader-Writer 
Lock 比 Mutex 具 有 更 好 的 并 发 性 。 



















































































用 挂 起 等 待 的 方式 解决 访问 冲突 不 见得 是 最 好 的 办 法 ， 因 为 这 样 毕竟 会 影响 系统 的 并 发 性 ， 在 
某 些 情况 下 解决 访问 冲突 的 问题 可 以 尽量 避免 挂 起 某 个 线程 ， 例 如 Linux 内 核 
的 Seqlock、RCU (read-copy-update) 等 机 制 。 













































































关于 这 些 同 步 机 制 的 细节 ， 有 兴趣 的 读者 可 以 参考 [APUE2el] 和 [ULKI]。 
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4. 编程 练习 


哲学 家 就 餐 问 题 。 这 是 由 计算 机 科学 家 Dijkstra 提 出 的 经 典 死 锁 场 景 。 


原版 的 故事 里 有 五 个 哲学 家 (不 过 我 们 写 的 程序 可 以 有 N 个 哲学 家 ) ， 这 些 哲学 家 们 只 做 两 件 事 一 
一 思考 和 吃饭 ， 他 们 思考 的 时 候 不 需要 任何 共享 资源 ， 但 是 吃饭 的 时 候 就 必须 使 用 餐具 ， 而 餐 
桌 上 的 餐具 是 有 限 的 ， 原 版 的 故事 里 ， 餐 具 是 又 子 ， 吃 饭 的 时 候 要 用 两 把 又 子 把 面条 从 碗 里 搁 
出 来 。 很 亚 然 把 又 子 换 成 饶 子 会 更 合理 ， 所 以 : 一 个 哲学 家 需要 两 根 秩 子 才能 吃饭 。 


we 寻 起 五 根 亿 子 。 他 们 坐 成 一 轿 ， 两 个 人 的 中 间 放 
根 答 子 。 哲 学 家 吃饭 的 时 候 必须 同时 得 到 左手 边 和 右手 边 的 和 钨 子 。 如 果 他 号 边 的 任何 一 位 正 
在 使 用 筷子 ， 那 他 只 有 等 着 。 


假设 哲学 家 的 编号 是 A、B、C、D、E， 筷 子 编号 是 1、2、3、4、5， 哲 学 家 和 筷子 围 成 一 圈 如 
下 图 所 示 : 



























































































































































































































































































































































图 35.2. 哲学 家 问题 


" \ 
Soad 

















每 个 哲学 家 都 是 一 个 单独 的 线程 ， 每 个 线程 循环 做 以 下 动作 : 思考 rand()%10 秒 ， 然 后 先 拿 左手 
边 的 筷子 再 拿 右手 边 的 筷子 (筷子 这 种 资源 可 以 用 mutex 表 示 ) ， 有 任何 一 边 拿 不 到 就 一 直 等 
着 ， 全 拿 到 就 吃饭 rand()%10 秒 ， 然 后 放下 筷子 。 


编写 程序 仿真 哲学 家 就 餐 的 场景 : 

































































fetches chopstick 5 
fetches chopstick 1 
fetches chopstick 2 
fetches chopstick 3 


: Philosopher 
: Philosopher 
! Philosopher 
' Philosopher 


: Philosopher 
: Philosopher 
: Philosopher 


fetches chopstick 1 
fetches chopstick 2 
releases chopsticks 5 1 





A 
B 
B 
D 
: Philosopher B releases chopsticks 1 2 
A 
€ 
A 











分 析 一 下 ， 这 个 过 程 有 没有 可 能 产生 死 锁 ”调用 usleep(3) 函 数 可 以 实现 微 秒 级 的 延 时 ， 试 着 
用 usleep(3) 加 快 仿 真 的 速度 ， 看 能 不 能 观察 到 死 锁 现象 。 然 后 修改 上 述 算法 避免 产生 和 死 锁 。 
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1. TCP/IP 协 议 栈 与 数据 包 封 装 


TCP/HP 网 络 协议 栈 分 为 应 用 层 (Application) 、 传 输 层 (Transport) 、 网 络 层 (Network) 和 
链 路 层 (Link) 四 层 。 如 下 图 所 示 (该 图 出 自 [ICPIP]) o 









































图 36.1. TCP/IP 协 议 栈 


Telnet、FTP 和 e-mail 等 
TCP 和 UDP 
耻 、ICMP 和 ICMP 


设备 驱动 程序 及 接口 卡 








两 台 计 算 机 通过 TCP/IP 协 议 通讯 的 过 程 如 下 所 示 (该 图 出 自 [TCPIP]) 。 




















图 36.2. TCP/IP 通 讯 过 程 





处 理应 用 


FTP 协 议 PrP "A -- 
应 用 层 wa | = MOR 


传输 层 内 核 处 理 通信 细 节 


网 络 层 


以 太 网 驱 ARIK 
动 程 序 动 程序 


链 路 层 


























传输 层 及 其 以 下 的 机 制 由 内 核 提供 ， 应 用 层 由 用 户 进 程 提供 〈 后 面 将 介绍 如 何 使 用 socket API 编 
写 应 用 程序 ) ， 应 用 程序 对 通讯 数据 的 含义 进行 解释 ， 而 传输 层 及 其 以 下 处 理 通讯 的 细 季 ， 将 




































































数据 从 一 台 计 算 机 通过 一 定 的 路 径 发 送 到 另 一 人 台 计 算 机 。 应 用 层 数 据 通过 协议 栈 发 到 网 络 上 
时 ， 每 层 协议 都 要 加 上 一 个 数据 首部 (header) ， 称 为 封装 (Encapsulation) ， 如 下 图 所 示 
(该 图 出 自 [TCPIP]) 。 









































图 36.3. TCP/IP 数 据 包 的 封装 
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以 太 网 














不 同 的 协议 层 对 数据 包 有 不 同 的 称谓 ， 在 传输 层 叫做 段 (segment) ， 在 网 络 层 叫 做 数据 报 
(datagram) ， 在 链 路 层 叫 做 帧 (frame) 。 数 据 封 装 成 帧 后 发 到 传输 介质 上 ， 到 达 目 的 主机 后 
层 协 议 再 刊 掉 相应 的 首部 ， 最 后 将 应 用 层 数据 交 给 应 用 程序 处 理 。 
上 图 对 应 两 台 计算 机 在 同一 网 段 中 的 情况 ， 如 果 两 台 计算 机 在 不 同 的 网 段 中 ， 那 么 数据 从 一 从 
计算 机 到 姑 一 人 台 计 算 机 传输 过 程 中 要 经 过 一 个 或 多 个 路 由 人 磊 ， 如 下 图 所 示 (该 图 出 
H[ICPIPD 。 








































































































图 36.4. 跨 路 由 和 货 通 讯 过 程 

















FTP 协议 FTP 


TCP fe-_------------- pd doa APER 
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:在 链 路 层 之 下 还 有 物理 层 ， 指 
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早期 以 太 网 采用 的 的 同 轴 电 
物理 层 的 能 力 决 定 了 最 大 传输 























什么 信号 算 作 新 帧 的 开始 ) 
交换 机 是 工作 在 链 路 层 的 网 
太 网 和 百 兆 以 太 网 之 间 、 以 太 
































令 牌 环 驱 
动 程序 








的 是 电信 和 号 的 传递 方式 ， 比 如 现在 以 太 网 通用 的 网 线 OLR 
w (现在 主要 用 于 有 线 电视 ) 、 光 纤 等 都 属于 物理 层 的 概 
速率 、 传 输 距 离 、 抗 干扰 性 等 。 集 线 需 (Hub) 是 工作 在 物理 




































































有 的 网 络 设备 ， 用 于 双 绞 线 的 连接 和 信号 中 继 (将 已 衰减 的 信号 再 次 放大 使 之 传 得 更 远 ) 。 
链 路 层 有 以 太 网 、 令 牌 环 网 等 标准 ， 




















链 路 层 负责 网 卡 设备 的 驱动 、 帧 同步 〈 就 是 说 从 网 线 上 检 
冲突 检测 (如果 检 测 到 冲突 就 自动 重 发 ) 、 数 据 差错 校 验 等 
络 设备 ， 可 以 在 不 同 的 链 路 层 网 络 之 间 转 发 数据 帧 〈 比 如 十 
网 和 令 牌 环 网 之 间 ) ， 由 于 不 同 链 路 层 的 帧 格式 不 同 ， 交 换 
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网 络 


路 由 


将 进来 的 数据 包 拆 掉 链 路 层 首 




















露 负责 根据 IP 地 址 选择 合适 的 











往 : 
不 同 





经 过 十 多 个 路 由 套 。 路 由 需 是 
的 链 路 层 接口 之 间 转 发 数据 包 























首部 














并 重新 封装 。IP 协 议 不 保证 传 








上 层 


协议 或 应 用 程序 中 提供 文 持 。 








网 络 
AW ( 
Wo 

了 连 
主机 
[E 
接 。 

















SRGUSEL (point-to-point 
end-to-end) 的 传输 (这 里 的 ' 
TCP ATES 可 靠 
接 ， 然 后 说 话 就 行 了 ， 这 边 说 
断 开 连 接 。 也 就 是 说 TCP 传 输 
TE, 丢失 的 数据 包 自 动 重 发 ， 


















































部 重新 封装 之 后 再 转发 。 


屋 的 IP 协 议 是 构成 Internet 的 基础 。Internet 上 的 主机 通过 IP 地 址 来 标识 ，Internet 上 有 大 量 





路 径 转 发 数据 包 ， 数 据 包 从 Internet 上 的 源 主机 到 目的 主机 往 
旺 工作 在 第 三 层 的 网 络 设备 ， 同 时 兼 有 交换 机 的 功能 可 以 在 
， 因 此 路 由 右 需 要 将 进来 的 数据 包 拆 掉 网 络 RA E ER 
输 的 可 靠 性 ， 数 据 包 在 传输 过 程 中 可 能 丢失 ， 可 靠 性 可 以 在 








































































































) 的 传输 (这 里 的 “点 " 指 主机 或 路 由 妖 ) ， 而 传输 层 负责 端 到 
剖 " 指 源 主机 和 目的 主机 ) 。 传 输 层 可 选择 TCP 或 UDP 协 
的 协议 ， 有 点 像 打 电话 ， 双 方 拿 起 电话 互通 身份 之 后 就 建立 
的 话 那 边 保证 昕 得到， 并 且 是 按说 话 的 顺序 听 到 的 ， 说 完 话 
的 双方 需要 首先 建立 连接 ， 之 后 由 TCP 协 议 保 证 数据 收发 的 
上 层 应 用 程序 收 到 的 总 是 可 靠 的 数据 流 ， 通 讯 之 后 关闭 连 































































































UDP 协 议 不 面向 连接 ， 也 不 保证 可 靠 性 ， 有 点 像 寄 信 ， 写 好 信 放 到 邮 简 里 ， 既 不 能 保证 信 
什 在 邮递 过 程 中 不 会 丢失 ， 也 不 能 保证 信件 是 按 顺 序 寄 到 目的 地 的 。 使 用 UDP 协 议 的 应 用 程序 
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己 完成 丢 包 重 发 、 消 息 排序 








SE. 

















主机 收 到 数据 包 后 ， 如 何 经 

















H[ICPIPD 。 




















过 各 层 协议 栈 最 后 到 达 应 用 程序 呢 ?》 整 个 过 程 如 下 图 所 示 (该 


图 36.5. Multiplexing itt 


应 用 程序 | ee |! 












部 中 的 端口 号 进行 


d 
4H 


议 值 进行 分 用 


} 根据 1P 首 部 中 的 协 


根据 以 太 网 首部 中 
的 帧 类 型 进行 分 用 


驱动 程序 


进入 的 帧 











以 太 网 驱动 程序 首先 根据 以 太 网 首部 中 的 “上 层 协 议 " 字 有 段 确 定 该 数据 帧 的 有 效 载 答 (payload , 
指 除去 协议 首部 之 外 实际 传输 的 数据 ) 是 IP、ARP 还 是 RARP 协 议 的 数据 报 ， 然 后 交 给 相应 的 协 
议 处 理 。 假 如 是 IP 数 据 报 ，IP 协 议 再 根据 IP 首 部 中 的 “上 层 协 议 " 字 有 段 确 定 该 数据 报 的 有 效 载 伍 
是 TCP、UDP、ICMP 还 是 I|GMP， 然 后 交 给 相应 的 协议 处 理 。 假 如 是 TCP 段 
或 UDP 段 ，TCP 或 UDP 协 议 再 根据 TCP 首 部 或 UDP 首 部 的 “端口 号 "字段 确定 应 该 将 应 用 层 数 据 
交 给 哪个 用 户 进程 。 diee B o 同 主机 的 地 址 ， 而 端口 号 就 是 同一 台 主 机 上 标识 不 
同 进程 的 地 址 ，IP 地 址 和 端口 号 合 起 来 标识 网 络 中 唯一 的 进程 。 


ru 虽然 |P、ARP 和 RARP 数 据 报 都 需要 以 太 网 驱动 程序 来 封装 成 帧 ， 但 是 从 功能 上 划 
，ARP 和 RARP 属 于 链 路 层 ，IP 属 于 网 络 层 。 昌 然 ICMP、IGMP、TCP、UDP 的 数据 都 需 

5 要 jp 协议 来 封装 成 数据 报 ， 但 是 从 功能 上 划分 ，ICMP、IGMP 与 IP 同 属于 网 络 

慨 ，TCP 和 UDP 属于 传输 层 。 本 文 对 RARP、ICMP、IGMP 协 议 不 做 进一步 介绍 ， 有 兴趣 的 读 

者 可 以 看 参考 资料 。 
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2. 以 太 网 (RFC 894) 帧 格式 
以 太 网 的 帧 格式 如 下 所 示 (该 图 出 自 [TCPIP]) : 


图 36.6. 以 太 网 帧 格式 





以 太 网 封装 (RFC 894): 





: 46-1500 字 节 

= 
46~1500 : E 
: 


46-1500 





其 中 的 源 地 址 和 目的 地 址 是 指 网 卡 的 硬件 地 址 (也 叫 MAC 地 址 ) ， 长 度 是 48 位 ， 是 在 网 卡 出 广 
时 固化 的 。 用 ifconfig 命 令 看 一 下 ,，“HWaddr 00:15:F2:14:9E:3F”* 部 分 就 是 硬件 地 址 。 协 议 字段 
有 三 种 值 ， 分 别 对 应 IP、ARP、RARP。 帧 末尾 是 CRC 校 验 码 。 


以 太 网 帧 中 的 数据 长 度 规定 最 小 46 字 节 ， 最 大 1500 字 节 ，ARP 和 RARP 数 据 包 的 长 度 不 够 46 字 
节 ， 要 在 后 面 补 填 充 位 。 最 大 值 1500 称 为 以 太 网 的 最 大 传输 单元 (MTU) ， 不 同 的 网 络 类 型 有 
不 同 的 MTU ， 如 果 一 个 数据 包 从 以 太 网 路 由 到 拨号 链 路 上 ， 数 据 包 长 度 大 于 拨号 链 路 

的 MTU 了 ， 则 需要 对 数据 包 进 行 分 请 (fragmentation) 。ifconfig 命 令 的 输出 中 也 

有 “MTU:1500"。 注 意 ，MTU 这 个 概念 指数 据 帧 中 有 效 载 和 荷 的 最 大 长 度 ， 不 包括 帧 首部 的 长 度 。 
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3. ARP 数 据 报 格式 


在 网 络 通 讯 时 ， 源 主机 的 应 用 程序 知道 目的 主机 的 IP 地 址 和 端口 号 ， 却 不 知道 目的 主机 的 硬件 
地 址 ， 而 数据 包 首 先是 被 网 卡 接收 到 再 去 处 理 上 层 协 议 的 ， 如 果 接 收 到 的 数据 包 的 硬件 地 址 与 
本 机 不 符 ， 则 直接 丢弃 。 因 此 在 通讯 前 必须 获得 目的 主机 的 硬件 地 址 。ARP 协 议 就 起 到 这 个 作 
用 。 源 主机 发 出 ARP 请 求 ， 询问 IP 地 址 是 192.168.0.1 的 主机 的 硬件 地 址 是 多 少 "， 并 将 这 个 请 
求 播 到 本 地 网 段 (以 大 网 帧 百 部 的 硬件 地 址 车 FF:FF:FF:FF:FF:FF 表 示 广 播 ) ， 目 的 主机 接收 
到 广播 的 ARP 请 求 ， 发 现 其 中 的 IP 地 址 与 本 机 相符 ， 则 发 送 一 个 ARP 应 答 数据 包 给 源 主机 ， 将 
自己 的 硬件 地 址 填写 在 应 答 包 中 。 

Sf EDL pce UE ur 可 以 用 arp -a 命 令 查看 。 绥 存 表 中 的 表 项 有 过 期 时 间 (一 般 
为 20 分 钟 ) ， 如 果 20 分 钟 内 没有 再 次 使 用 某 个 表 项 ， 则 该 表 项 失效 ， 下 次 还 要 发 ARP 请 求 来 获 
得 目 的 主机 的 硬件 地 址 - 想 一 想 ， 为 什么 表 项 : 有 过 期 时 间 而 不 是 一 直 有 效 ? 


ARP 数 据 报 的 格式 如 下 所 示 (该 图 出 自 [TCPIP]) : 








































































































































































































































































































图 36.7. ARP 数 据 报 格式 
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发 送 请 


以 太 网 以 太 网 Ux] | 协议 
目的 地 址 海地 址 类 型 | 类 型 | 类 型 JP 地址 
2 2 2 11 2 E (4 5 


6 6 
-一 一 以 太 网 首部 Lari 28 字 节 ARP 请 求 /应 答 






目的 以 太 网 
地 址 


IP 地 址 
| 























注意 到 源 MAC 地 址 、 目 的 MAC 地 址 在 以 太 网 首部 和 ARP 请 求 中 各 出 现 一 次 ， 对 于 链 路 层 为 以 太 
网 的 情况 是 多 余 的 ， 但 如 果 链 路 层 是 其 它 类 型 的 网 络 则 有 可 能 是 必要 的 。 硬 件 类 型 指 链 路 层 网 
络 类 型 ，1 为 以 太 网 ， 协 议 类 型 指 要 转换 的 地 址 类 型 ，0x0800 为 IP 地 址 ， 后 面 两 个 地 址 长 度 对 于 
以 太 网 地 址 和 IP 地 址 分 别 为 6 和 4 (E), op 字段 为 表示 ARP 请 求 ， op 字段 为 2 表示 ARP 应 
LK 


He 


下 面 举 一 个 具体 的 例子 。 
请 求 帧 如 下 (为 了 清晰 在 每 行 的 前 面 加 了 字 节 计数 ， 每 行 16 个 他 市 ) : 


以 太 网 首部 (144447) 

0000: ff ff ff ff ff ff 00 05 5d 61 58 a8 08 06 

ARP 帧 (28 字 节 ) 

0000: 00 01 

0010: 08 00 06 04 00 01 00 05 5d 61 58 a8 c0 a8 00 37 
0020: 00 00 00 00 00 00 c0 a8 00 02 

填充 位 (185417) 

0020: 00 77 31 d2 50 10 

0030: fd 78 41 d3 00 00 00 00 00 00 00 00 


以 太 网 首部 : 目的 主机 采用 广播 地 址 ， 源 主机 的 MAC 地 址 是 00:05:5d:61:58:a8 ， 上 层 协 议 类 



































































































































































































































型 0x0806 表 示 ARP。 


























ARP 帧 : 硬件 类 型 0x0001 表 示 以 太 网 ， 协 议 类 型 0x0800 表 示 IP 协 议 ， 硬件 地 址 (MAC 地 址 ) 
长 度 为 6， 协 议 地 址 (PHBH) 长 度 为 4，op 为 0x0001 表 示 请 求 目 的 主机 的 MAC 地 址 ， 源 主 
机 MAC 地 址 为 00:05:5d:61:58:a8 ， 源 主机 IP 地 址 为 c0 a8 00 37 (192.168.0.55) ， 目 的 主 

机 MAC 地 址 全 0 待 填写 ， 目 的 主机 IP 地 址 为 c0 a8 00 02 (192.168.0.2) 。 


由 于 以 太 网 规定 最 小 数据 长 度 为 46 字 节 ，ARP 帧 长 度 只 有 28 字 节 ， 因 此 有 18 字 贡 质 充 位 ， 填 充 
位 的 内 容 没 有 定义 ,与 具体 实现 相关 。 


应 管 帧 如 下 : 


以 太 网 首部 

0000: 00 05 5d 61 58 a8 00 05 5d a1 b8 40 08 06 
ARPIi 

0000: 00 01 

0010: 08 00 06 04 00 02 00 05 5d a1 b8 40 c0 a8 00 02 
0020: 00 05 5d 61 58 a8 cO a8 00 37 

填充 位 

0020: 00 77 31 d2 50 10 

0030: fd 78 41 d3 00 00 00 00 00 00 00 00 


以 太 网 首部 : 目的 主机 的 MAC 地 址 是 00:05:5d:61:58:a8 ， 源 主机 的 MAC 地 址 
是 00:05:5d:a1:b8:40 ， 上 层 协议 类 型 0x0806 表 示 ARP。 












































































































































ARP 帧 : 硬件 类 型 0x0001 表 示 以 太 网 ， 协 议 类 型 0x0800 表 示 IP 协 议 ， 硬 件 地 址 (MAC 地 址 ) 
长 度 为 6， 协 议 地 址 (PHH) 长 度 为 4，op 为 0x0002 表 示 应 答 ， 源 主机 MAC 地 址 
为 00:05:5d:a1:b8:40 ， 源 主机 IP 地 址 为 c0 a8 00 02 (192.168.0.2) ， 目 的 主机 MAC 地 址 
为 00:05:5d:61:58:a8 ， 目 的 主机 IP 地 址 为 c0 a8 00 37 (192.168.0.55) 。 


思考 题 : 如 果 源 主机 和 目的 主机 不 在 同一 网 段 ，ARP 请 求 的 广播 帧 无 法 穿 过 路 由 器 ， 源 主机 如 
何 与 目的 主机 通信 ? 
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4. IP 数 据 报 格式 


pA 


























IP 数 据 报 的 格式 如 下 (这 里 只 讨论 IPv4) (该 图 出 自 [TCPIP]) : 
图 36.8. IP 数 据 报 格式 
0 15 16 31 
grind Me pe E 型 16 位 总 长 度 ( 字 节 数 ) 
16 位 标识 E3 13 位 片 偏 移 
SEE | sup 16 位 首部 检验 和 2075 

32 位 源 IP 地 址 
32 位 目的 下 地 址 


选项 (如 果 有 ) 


"o d 














IP 数 据 报 的 首部 长 度 和 数据 长 度 都 是 可 变 长 的 ， 但 总 是 4 字 贡 的 整数 倍 。 对 于 IPv4 ，4 位 版 本 字 
段 是 4。4 位 首部 长 度 的 数值 是 以 4 字 节 为 单位 的 ， 最 小 值 为 5， 也 就 是 说 首部 长 度 最 小 

是 4x5=20 字 节 ， 也 就 是 不 带 任何 选项 的 IP 首 部 ，4 位 能 表示 的 最 大 值 是 15， 也 就 是 说 首部 长 度 
最 大 是 60 字 节 。8 位 TOS 字 段 有 3 个 位 用 来 指定 IP 数 据 报 的 优先 级 〈 目 前 已 经 废弃 不 用 ) ， 还 
有 4 个 位 表示 可 选 的 服务 类 型 (最 小 延迟 、 最 大 吞吐 量 、 最 大 可 靠 性 、 最 小 成 本 ) ， 还 有 一 个 位 
总 是 0。 总 长 度 是 整个 数据 报 (包括 IP 首 部 和 IP 层 payload) Hj X. fe PHP ZO 

报 ，16 位 的 标识 加 1， 可 用 于 分 片 和 重新 组 装 数据 报 。3 位 标志 和 13 位 片 偏 移 用 于 分 

片 。TTL (Time to live) 是 这 样 用 的 : 源 主机 为 数据 包 设 定 一 个 生存 时 间 ， 比 如 64， 每 过 一 个 路 
由 器 就 把 该 值 减 1， 如 果 减 到 0 就 表示 路 由 已 经 太 长 了 仍然 找 不 到 目的 主机 的 网 络 ， 就 丢弃 该 
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[um 





因此 这 个 生存 时 间 的 单位 不 是 秒 ， 


而 是 跳 (hop) 。 协 议 字段 指示 上 层 协 议 


























ÆTCP, UDP, ICMP 





还 是 IGMP。 然 后 是 校 验 和 ， 只 校 验 IP 首 部 ， 数 据 的 校 验 由 更 高 层 协 议 负 





责 。IPv4 的 IP 地 址 长 度 为 32 位 。 选 项 字段 的 解释 从 略 。 























想 一 想 ， 前 面 讲 了 以 太 网 帧 



































么 如 何 界定 这 46 字 市 


ce 











! 的 最 小 数据 长 度 为 46 字 节 ， 不 足 46 字 节 的 要 用 填充 字 节 补 上 ， 那 
前 多 少 个 字 节 是 IP、ARP 或 RARP 数 据 报 而 后 面 是 填充 字 节 ? 
i ii 
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5. IP 地 址 与 路 由 


IPv4 的 IP 地 址 长 度 为 4 字 节 ， 通 常 采用 点 分 十 进 制 表 示 法 (dotted decimal representation) 例 
如 0xc0a80002 表 示 为 192.168.0.2。lnternet 被 各 种 路 由 器 和 网 关 设 备 分 陋 成 很 多 网 段 ， 为 了 标 
识 不 同 的 网 段 ， 需 要 把 32 位 的 IP 地 址 划分 成 网 络 号 和 主机 号 两 部 分 ， 网 络 号 相同 的 各 主机 位 于 
同一 网 段 ， 相 互 间 可 以 直接 通信 ， 网 络 号 不 同 的 主机 之 间 通 信和 则 需 : 村 通过 路 由 器 转发 。 


过 去 曾经 提出 一 种 划分 网 络 号 和 主机 号 的 方案 ， 把 所 有 IP 地 址 分 为 五 类 ， 如 下 图 所 示 (该 图 出 
H[ICPIPD 。 























































































































图 36.9. IP 地 址 类 





A 类 0.0.0.0 到 127.255.255.255 

BE 128.0.0.0 到 191.255.255.255 
C25 192.0.0.0 到 223.255.255.255 
D 类 224.0.0.0 到 239.255.255.255 
E 类 240.0.0.0 到 247.255.255.255 


一 个 A 类 网 络 可 容纳 的 地 址 数量 最 大 ， 一 个 B 类 网 络 的 地 址 数量 是 65536， 一 个 C 类 网 络 的 地 址 
数量 是 256。D 类 地 址 用 作 多 播 地 址 ，E 类 地 址 保留 未 用 。 


随 着 Internet 的 飞速 发 展 ， 这 种 划分 方案 的 局 限 性 很 快 显 现 出 来 ， 大 多 数组 织 都 申请 B 类 网 络 地 
址 ， 导 致 B 类 地 址 很 快 就 分 配 完 了 ， 而 A 类 却 浪费 了 大 量 地 址 。 这 种 方式 对 网 络 的 划分 是 flat 的 而 
不 是 层级 结构 (hierarchical) 的 ，Internet 上 的 每 个 路 由 需 都 必须 掌握 所 有 网 络 的 信息 ， 随 着 大 
量 C 类 网 络 的 出 现 ， 路 由 絮 需 要 检索 的 路 由 表 越 来 越 庞大 ， 人 负担 越 来 越 重 。 


针对 这 种 情况 提出 了 新 的 划分 方案 ， 称 为 CIDR (Classless Interdomain Routing) 。 网 络 号 和 
主机 号 的 划分 需要 用 一 个 额外 的 子 网 拖 码 (subnet mask) 来 表示 ， 而 不 能 由 IP 地 址 本 号 的 数值 
决定 ， 也 就 是 说 ， 网 络 号 和 主机 号 的 划分 与 这 个 IP 地 址 是 A 类 、B 类 还 是 C 类 无 关 ， 因 此 称 
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为 Classless 的 。 这 样 ， 多 个 子 网 就 可 以 汇总 (summarize) 成 一 个 Internet 上 的 网 络 ， 例 如 ， 
有 8 个 站 点 都 申请 了 C 类 网 络 ， 本 来 网 络 号 是 24 位 的 ， 但 是 这 8 个 站 点 通过 同一 个 ISP (Internet 











service provider) 连 到 Internet 上， 它们 网 络 号 的 高 21 位 是 本 





























点 就 可 以 汇总 ， 在 Internet 上 只 需要 


后 在 ISP 这 边 再 通过 次 级 的 路 由 右 选 路 到 茶 





下 面 举 两 个 例子 : 


表 36.1. 划分 子 网 的 例子 1 


个 路 





























个 站 点 o 


日 同 的， 


IP 地 址 140.252.20.68 8C FC 1444 
子 网 掩 码 。 |255.255.255.0 FF FF FF 00 








表 36.2. 划分 子 网 的 例子 2 


网 络 号 ”|140.252.20.0 8C FC 14 00 
子 网 地 址 范围 140.252.20.0~140.252.20.255| | 





IP 地 址 140.252.20.68 8C FC 14 44 




















TAGS [255.255.255.240 FF FF FF FO 


140.252.20.64 8C FC 1440 
子 网 地 址 范围 140.252.20.64~140.252.20.79| — 








只 有 低 三 
由 表 项 ， 数 据 包 通 过 Internet 上 的 路 由 器 到 达 ISP， 然 





位 不 同 ， 这 8 个 站 


可 见 ，IP 地 址 与 子 网 掩 码 做 与 运算 可 以 得 到 网 络 写 ， 主 机 号 从 全 0 到 全 1 就 是 子 网 的 地 址 范 












































如 果 一 个 组 织 内 部 组 建 局 域 网 ，IP 地 址 只 用 于 局 域 网 内 的 通信 ， 



































图 。IP 地 址 和 子 网 掩 码 还 有 一 种 更 简洁 的 表示 方法 ， 例 如 140.252.20.68/24， 
为 140.252.20.68 ， 子 网 捧 码 的 高 24 位 是 1 ， 


也 就 是 255.255.255.0。 





as 





而 不 ] 























表示 IP 地 址 


直接 连 到 Internet 上 ， 理 论 





上 使 用 任意 的 IP 地 址 都 可 以 ， 但 是 RFC 1918 规 定 了 用 组 建 局 域 网 的 私有 IP 地 址 ， 这 些 地 址 不 





会 出 现在 Internet 上 ， 如 下 表 所 示 。 











。 10.*， 前 8 位 是 网 络 写 ， 共 16,777,216 个 地 址 





e 172.16.* 到 172.31.*， 前 12 位 是 网 络 号 ， 共 1,048,576 个 地 址 











e 192.168.*， 前 16 位 是 网 络 号 ， 共 65,536 个 地 址 














通常 是 127.0.0.1。loopback 是 系统 





























地 址 ， 或 者 与 本 机 其 已 网 络 设备 的 IP 地 址 相同 ， 则 数据 包 不 会 发 送 到 网 络 介 

















一 种 4 





使 用 私有 IP 地 址 的 局 域 网 主机 虽然 没有 Internet 的 IP 地 址 ， 但 也 可 以 通过 代理 
络 地 址 转换 ) 等 技术 连 到 Internet E. 


除了 私有 IP 地 址 之 外 ， 还 有 几 种 特殊 的 IP 地 





b 址 。127.* 的 IP 地 址 用 于 本 机 环 回 ( 
特殊 的 网 络 设备 ， 如 果 发 送 数 据 包 的 目的 地 址 是 环 回 
































回 设备 再 发 回 给 上 层 协议 和 应 用 程序 ， 主 要 用 于 测试 。 如 下 图 所 示 CZE H A 


图 36.10. loopback 设 备 




















LARA ar BKNAT (网 


loop back) 测 试 ， 











质 上 ， 而 是 通过 环 














[TCPIP]) 。 





















否 ， 用 ARP 获 
取 目 的 主机 的 
网 地 址 






以 太 





3 Te rn ne oe ee = ^ 
目的 地址 是 否 与 广播 
| 地 址 或 多 播 地 址 相同 ? ! 
VERREM 否 i 
环 回 驱 动 程序 i 
* |】 neni: eng 

! 动 程序 
| 
i 


以 太 网 


还 有 一 些 不 能 用 作 主 机 IP 地 址 的 特殊 地 址 : 
。 目的 地 址 为 255.255.255.255， 表 示 本 网 络 内 部 广播 ， 路 由 磊 不 转发 这 样 的 广播 数据 包 。 


。 主机 号 全 为 0 的 地 址 只 表示 网 络 而 不 能 表示 某 个 主机 ， 如 192.168.10.0 (UBIT MAEI 
为 255.255.255.0) 。 


目的 地 址 的 主机 号 为 全 1， 表 示 广 播 至 茶 个 网 络 的 所 有 主机 ， 例 如 目的 地 
址 192.168.10.255 表 示 广 播 至 192.168.10.0 网 络 (假设 子 网 掩 码 为 255.255.255.0) 。 





















































下 面 介绍 路 由 的 过 程 ， 首 先 正式 定义 儿 个 名 词 : 






































路 由 (名 词 ) 
数据 包 从 源 地 址 到 目的 地 址 所 经 过 的 路 径 ， 由 一 系列 路 由 节点 组 成 。 
路 由 (动词 ) 
某 个 路 由 节点 为 数据 报 选择 投递 方向 的 选 路 过 程 。 
路 由 市 点 
一 个 具有 路 由 能 力 的 主机 或 路 由 器 ， 它 维护 一 张 路 由 表 ， 通 过 查询 路 由 表 来 决定 向 哪个 接 
口 发 送 数据 包 。 










































































































































































路 由 节点 与 某 个 网 络 相连 的 网 卡 接口 。 

路 由 表 
由 很 多 路 由 条 目 组 成 ， 每 个 条 目 都 指明 去 往 某 个 网 络 的 数据 包 
最 后 一 条 是 缺 省 路 由 条 目 。 

路 由 条 目 
路 由 家 蛙 的 一 行 二 每 个 条 目 主 要 由 bb 址 、 子 网 掩 码 、 
分 组 成 ， 如 果 要 发 送 的 数据 包 的 目的 网 络 地 址 匹配 路 由 表 中 的 某 
送 到 下 一 跳 地 址 。 

缺 省 路 由 条 目 
路 由 表 中 的 最 后 一 行 ， 主 要 由 下 一 跳 地 址 和 发 送 接口 两 部 分 组 成 ， 
其 它 行 都 不 匹配 时 ， 就 按 缺 省 路 由 条 目 规定 的 接 























假设 某 主机 上 的 网 络 接口 配置 和 路 由 表 如 下 : 


























下 一 跳 地 址 、 发 送 接 














该 经 由 哪个 接口 发 送 ， 其 


LI 


























行 ， 就 按 规定 的 接 






































: $ ifconfig 
aet 





| Mask:255.255.255.0 


UP BROADCAST RUNNING MULTICAST MTU:1500 


Link encap:Ethernet HWaddr 00:0C:29:C2:8D:7E 
inet addr:192.168.10.223 


Scars NI 69s 255 


Metric:1 


RX packets:0 errors:0 dropped:0 overruns:0 frame:0 
TX packets:10 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:100 


RX bytes:0 


(0:0 15) 


TX bytes:420 


Interrupt:10 Base address:0x10a0 


: eth1 


i Mask:255.255.255.0 


UP BROADCAST RUNNING MULTICAST MTU:1500 


avele exelolies YA AGS 5 HG ALSO 


(420.0 b) 


Link encap:Ethernet HWaddr 00:0C:29:C2:8D:88 


ROA SILI . Gls), SO. 499 


Metric:1 


RX packets:603 errors:0 dropped:0 overruns:0 frame:0 
TX packets:110 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:100 


RX bytes:55551 


(54.2 


Kb) 


TX bytes:7601 


Interrupt:9 Base address:0x10c0 


i lo 


(7.4 Kb) 


Link encap:Local Loopback 
inet addr:127.0.0.1 Mask:255.0.0.0 
UP LOOPBACK RUNNING MTU:16436 Metric:1 
RX packets:37 errors:0 dropped:0 overruns:0 frame:0 
TX packets:37 errors:0 dropped:0 overruns:0 carrier:0 
collisions:0 txqueuelen:0 

i RX bytes:3020 (2.9 Kb) TX bytes:3020 (2.9 Kb) 

| $ route 

: Kernel IP routing table 

: Destination Gateway Genmask Flags Metric Ref 


‘Use Iface 

1 192.168.10.0 
: 0 ethO 

: 192.168.56.0 
:0 eth1 

e 127-0- 0,0 

tO lo 

: default 

"Oe ERO 


* 
* 


* 


BO 5 ALOE TOi 


299 642956 255 50 U 


29929929950 U 


255; 


9.5 (0). (9). (9) 


0.0.0 U 


UG 


0 0 
0 0 
0 0 
0 0 





这 人 台 主 机 有 两 个 网 络 接口 





到 192.168.56.0/24 网 络 。 路 由 表 的 Destination 是 
人 码 ，Gateway 是 下 一 跳 地 址 ， 











lface 是 发 送 接 








， 一 个 网 络 接口 连 到 192.168.10.0/24 网 络 ， 





H, Flags 





另 一 个 网 络 接口 连 








目的 网 络 地 址 ，Genmask 是 子 网 掩 

















' 的 UU 标志 表示 此 条 


当 目 的 地 址 与 路 由 表 
口 发 送 到 下 一 跳 地 址 。 


























HAR (AZS 

















AH) ，G 标 志 表 示 此 条 
































此 和 
ALIS e RUE LI 
如 果 要 发 送 的 数据 包 的 





到 192.168.56.0， 正 是 第 二 











HB 














ZIERA, ANZ E n 


目的 地 址 是 192.168.56.3 ， 跟 第 一 
到 192.168.56.0， 与 第 一 行 的 目的 网 络 地 址 不 符 ， HRS- 行 的 子 网 掩 码 做 与 运 
行 的 目的 网 络 地 址 ， 因 此 从 eth1 ik 




















HE H 


























路 由 条 目 ， 从 eth0 接 
下 一 跳 地 址 。 


epar 


4. IP 数 据 报 格式 


如 采 要 发 送 的 数据 包 的 目的 








hk 202.10.1.2, Hk 








192.168.56. 0/24 正 是 与 eth1 接 口 直 接 相 连 的 网 络 ， 




















一 路 地 址 是 某 个 路 由 器 的 地 址 ， 没 有 G 标 志 的 条 目 表 示 目 的 网 


E 转 发， 因此 下 一 跳 地 址 处 记 为 * 写 。 















































HAH 











前 三 行路 由 表 条 


行 的 了 子 网 掩 码 做 与 运算 得 



































4H 
AY 








口 发 送出 去 ， 由 
因此 可 以 直接 发 到 目的 主机 ， 不 需要 经 路 












































目 都 不 匹配 ， 那 么 就 要 按 缺 省 








0.1 路 由 妖 ， 再 让 路 由 瞬 根 据 它 的 路 由 表决 定 


”首先 发 往 192.168.1 
mei 
起 始 页 


下 二 网 
6. UDP 段 格 式 


6. UDP 段 格 式 
Asai 第 36 3€ TCP/IP 协 议 基 础 下 二 网 


6. UDP 段 格 式 
下 图 是 UDP 的 段 格式 (该 图 出 自 [TCPIP]) o 




















图 36.11. UDP 段 格 式 


0 15 16 31 


16 位 源 端 口号 16 位 目的 端口 号 


16 位 UDP 长 度 16 位 UDP 检 验 和 


数据 (如 果 有 ) 








下 面 分 析 一 帧 基于 UDP 的 TFTP 协 议 帧 。 














以 太 网 首部 

0000: 00 05 5d 67 d0 b1 00 05 5d 61 58 a8 08 00 

IP 首 部 

0000: 45 00 

0010: 00 53 93 25 00 00 80 11 25 ec c0 a8 00 37 c0 a8 
0020: 00 01 

UDP 首部 

0020: 05 d4 00 45 00 3f ac 40 

TFTP 协 议 

0020: 00 01 cq 


0030: 'w"e"r'q'."q"w"e'00 'n"e"t"a"s"c"i' 
0040: 'i'00 'b"I"k"s"i"z"e'00 '5"1"2'00 't"i' 
0050: 'm"e"o"u"t'00 '1"0'00 't"s"i"z"e'00 '0' 
0060: 00 

















以 太 网 首部 : 源 MAC 地 址 是 00:05:5d:61:58:a8 ， 目 的 MAC 地 址 是 00:05:5d:67:d0:b1 ， 上 层 协 议 
类 型 0xX0800 表 示 IP。 














IP 首 部 : 每 一 个 字 节 0x45 包 含 4 位 版 本 号 和 4 位 首部 长 度 ， 版 本 号 为 4， 即 IPv4 ， 首 部 长 度 为 5， 
说 明 IP 首 部 不 带 有 选项 字段 。 服 务 类 型 为 0， 没 有 使 用 服务 。16 位 总 长 度 字 段 (包括 IP 首 部 

和 IP 层 payload 的 长 度 ) 为 0x0053 ， 即 83 字 节 ， 加 上 以 太 网 首部 14 字 节 可 知 整个 帧 长 度 是 97 字 
节 。IP 报 标识 是 0x9325 ， 标 志 字 段 和 片 住 移 字段 设置 为 0x0000 ， 就 是 DF=0 人 允许 分 请，MF=0 此 
数据 报 没 有 更 多 分 片 ， 没 有 分 片 偏 移 。TTL 是 0x80 ， 也 就 是 128。 上 层 协 议 0x11 表 示 UDP 协 
议 。IP 首 部 校 验 和 为 0x25ec， 源 主机 IP 是 c0 a8 00 37 (192.168.0.55) ， 目 的 主机 IP 是 c0 a8 
00 01 (192.168.0.1) 。 





























































































































UDP 首部 : 源 端 口号 0x05d4 (1492) 是 客户 端的 端口 号 ， 目 的 端口 号 0Ox0045 (69) 是 TFTP 服 











务 的 well-known 端 口号 。 


























UDP 报 长 度 为 0x003f， 即 63 字 节 ， 包 括 UDP 首 部 和 UDP 层 payload 的 





长 度 。UDP 首 部 和 UDP 层 payload 的 校 验 和 为 0xac40。 











TFTP 是 基于 文本 的 协议 ， 
来 的 各 字段 是 : 








c:\qwerq.qwe 
netascii 
blksize 512 
timeout 10 
tsize 0 


一 般 的 网 络 通信 都 是 像 T 














各 字段 之 间 用 字 节 0 分 了 喇 ， 开 头 的 00 01 表 示 请 求 读 取 一 个 文件 ， 接 下 





























FTP 协 议 这 样 ， 通 信 的 双方 分 别 是 客户 端 和 服务 咒 ， 客 户 端 主动 发 起 请 

















R (上 面 的 例子 就 是 客户 端 发 起 的 请 求 帧 ) ， 而 服务 需 被 动 地 等 待 、 接 收 和 应 答 请 求 。 客 户 端 


























的 IP 地 址 和 端口 号 唯一 标识 了 该 主机 上 的 TFTP 客 户 端 进程 ， 服 务 器 的 IP 地 址 和 端口 号 唯一 标识 


了 该 主机 上 的 TFTP 服 务 








和 TFTP 服 务 进程 的 端口 号 ， 所 以 ， 一 些 常见 的 网 络 协议 有 默认 的 服务 器 端口 ， 例 如 HTTP 服 务 


默认 TCP 协 议 的 80 端 口 ， 












































进程 ， 由 了 客户 端 是 主动 发 起 请 求 的 方 ， 它 必须 知道 服务 右 的 IP 地 址 


























FTP 服 务 默 认 TCP 协 议 的 21 端 H, TFTP 服 务 默认 UDP 协议 的 69 端 口 











(如 上 例 所 示 ) 。 在 使 用 客户 端 程序 时 ， 必 须 指 定 服务 器 的 主机 名 或 PP 地 址 ， 如 果 不 明 确 指定 





























端口 号 则 采用 默认 端口 ， 
号 。/etc/services 中 列 出 




















请 读者 查阅 ftp、tftp 等 程序 的 man page 了 解 如 何 指定 端口 
了 所 有 well-known 的 服务 端口 和 对 应 的 传输 层 协议 ， 这 是 















































由 IANA (Internet Assigned Numbers Authority) 规定 的 ， 其 ;有 些 服务 既 可 以 用 TCP 也 可 以 
用 UDP， 为 了 清晰 ，IANA 规 定 这 样 的 服务 采用 相同 的 TCP 或 UDP 默认 端口 号 ， 而 另外 一 






































些 TCP 和 UDP 的 相同 端口 号 却 对 应 不 同 的 服务 。 


























很 多 服务 有 well-known 的 端口 号 ， 然 而 客户 端 程序 的 端口 号 却 不 必 是 well-known 的 ， 往 往 是 每 














次 运行 客户 端 程序 时 由 系统 自动 分 配 一 个 空闲 的 端口 号 ， 用 完 就 释放 掉 ， 称 为 ephemeral 的 端口 








号 ， 想 想 这 是 为 什么 。 












































前 面 提 过 ，UDP 协 议 不 面向 连接 ， 也 不 保证 传输 的 可 靠 性 ， 例 如 : 





。 AL iin UDPTNWL 
果 因 为 网 络 故障 该 段 


e 接收 闯 的 UDP 协议 








Do 
























































z HABEN UE TER ETHICS GIP WUE RE TE BUER ID, UH 
法 发 到 对 方 ，UDP 协 议 层 也 不 会 给 应 用 层 返 回 任何 错误 信息 。 


慨 只 管 把 收 到 的 数据 根据 端口 号 交 给 相应 的 应 用 程序 就 算 完 成 任务 了 ， 


























































































































如 果 发 送 端 发 来 多 个 数据 包 并 且 在 网 络 上 绎 apa 同 的 路 由 ， 到 达 接 收 端 时 顺序 已 经 错乱 

















Í, UDP 协议 层 也 
。 通常 接收 端的 UDP 




















不 保证 按 发 送 时 的 顺序 交 给 应 用 层 。 
协议 屋 将 收 到 的 数据 放 在 一 个 固定 大 小 的 缓冲 区 i 来 提取 













































































和 处 理 ， 如 果 应 用 程序 提取 和 处 理 的 速度 很 慢 ， 而 发 送 端 发 送 的 mode 会 丢失 数据 





包 ， UDP Hi pi Jf 








不 报告 这 种 错误 。 























因此 ， 使 用 UDP 协议 的 应 用 程序 必须 考虑 到 这 些 可 能 的 问题 并 实现 适当 的 解决 方案 ， 例 如 等 待 
应 答 、 超 时 重 发 、 为 数据 包 编号 、 流 量 控制 等 。 一 般 使 用 UDP 协议 的 应 用 程序 实现 都 比较 简 



























































议 一 般 只 用 于 传送 小 文 伯 





单 ， 只 是 发 送 一 些 对 可 靠 性 要 求 不 高 的 消息 ， 而 不 发 送 大 量 的 数据 。 例 如 ， 基 于 UDP 的 TFTP 协 























F (所 以 才 叫 trivial 的 ftp) ， 而 基于 TCP 的 FTP 协 议 适 用 于 各 种 文件 的 传 




















输 。 下 面 看 TCP 协 议 如 何 用 面向 连接 的 服务 来 代替 应 用 程序 解决 传输 的 可 靠 性 问题 。 








本 
5. IP 地 址 与 路 由 











E= a 
起 始 页 7.TCP 协 议 


7. TCP HPN 
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7. TCP HW 


7.1. 段 格式 
TCP 的 段 格式 如 下 图 所 示 〈 该 图 出 自 [TCPIP]) 。 




















图 36.12. TCP 段 格式 


0 15 16 31 





4 位 首部 3 eo UIA RIS " 
长 度 | 保留 6 位 ) Ress 16 位 窗口 大 小 
16 位 检验 和 16 位 紧急 指针 


和 UDP 协议 一 样 也 有 源 端 口号 和 目的 端口 号 ， 通 讯 的 双方 由 IP 地 址 和 端口 号 标识 。32 位 序 
号 、32 位 确认 序号 、 窗 口 大 小 稍 后 详细 解释 。4 位 首部 长 度 和 IP 协 议 头 类 似 ， 表示 TCP 协 议 头 的 
长 度 ， 以 4 字 市 为 单位 ， 因 此 TCP 协 议 头 最 长 可 以 是 4x15=60 字 节 ， 如 果 没 有 选项 字段 ，TCP 协 
议 头 最 短 20 字 节 。URG、ACK、PSH、RST、SYN、FIN 是 六 个 控制 位 ， 本 节 稍 后 将 解 
释 SYN、ACK、FIN、RST 四 个 位 ， 其 它 位 的 解释 从 略 。16 位 检验 和 将 TCP 协 议 头 和 数据 都 计算 
在 内 。 紧 急 指 针 和 各 种 选项 的 解释 从 略 。 


7.2. 通讯 时 序 


下 图 是 一 次 TCP 通 讯 的 时 序 图 。 




























































































图 36.13. TCP 连 接 建立 断 开 


SYN, 1000(0), <mss 1460> 


establish : 


SYN, 8000(0), ACK 1001, <mss 1024 
connecti ofi 


ACK 8001 


1001(20), ACK 8001 


8001(10), ACK 1021 






































data : 
transfer : 
: ACK 8011 
b 
a FIN, 1021(0), ACK 8011 
close | T-8011í(0), ACK 1022 
connecti of 
: ACK 8012 
在 这 个 例子 中 ， 首 先 客 户 端 主动 发 起 连接 、 发 送 请 
动 关 闭 连 接 。 两 条 坚 线 表示 通讯 的 两 端 ， 
到 网 络 
10， 各 段 中 的 主要 信息 在 箭头 
1024> ， 表 示 该 段 中 的 SYN 位 置 1 ， 































































































求 ， 然 后 服务 器 端 响应 请 求 ， 然 后 客 
从 上 到 下 表示 时 间 的 先后 顺序 ， 注 意 ， 数 据 从 一 端 传 
的 另 一 端 也 需要 时 间 ， 所 以 图 中 的 箭头 都 是 斜 的 。 双 方 发 送 的 段 按 时 间 顺 序 编号 为 1- 
上 标 出 ， 例 如 段 2 的 箭头 上 标 着 SYN, 8000(0), ACK 1001, «mss 
32 位 序号 是 8000 ， 该 段 不 携带 有 效 载荷 CBE TA 











PoE 


























为 0) ，ACK 位 置 1，32 位 确认 序号 是 1001， 带 有 一 个 mss 选 项 值 为 1024。 


建立 连接 的 过 程 : 
1. & 


地 址 ， 每 发 一 个 数据 字 节 ， 这 个 序 
确 顺 序 ， 也 可 以 发 现 丢 
没 发 数据 ， 但 是 由 于 发 了 SYN 位 ， 因 上 出 
T, 如果 一 个 段 太 大 ， 封 装 成 帧 后 超过 了 链 路 
避免 这 种 情况 ， 客 






































包 的 情况 ， 


























户 端 发 出 段 1，SYN 位 表示 连接 请 求 。 序 号 是 1000 ， 这 个 序号 在 网 络 通讯 

















! 用 作 临 时 的 























号 要 加 1， 这 样 在 接收 端 可 以 根据 序号 排出 数据 包 的 正 
另外 ， 规 定 SYN 位 和 FIN 位 也 要 占 

















个 序号 ， 这 次 虽然 





下 次 再 发 送 应 该 用 序号 1001。mss 表 示 最 大 段 尺 

















dy Stl) 


Fg p HJ] 












































BE. 


















































慨 的 最 大 帧 长 度 ， 就 必须 在 IP 





bg AT 

















自己 的 最 大 段 太 寸 ， 建 议 服 务 需 端 发 来 的 段 不 要 超过 这 个 长 











. 服务 器 发 出 段 2， 也 带 有 SYN 位 ， 同 时 置 ACK 位 表示 确认 ， 确 认 序 号 是 1001 ， 表 示 “ 我 接收 











序号 为 1001 的 段 *， 也 就 是 应 答 了 客户 端的 



















































































! 服 














到 序号 1000 及 其 以 前 所 有 的 段 ， 请 你 下 次 发 送 
连接 请 求 ， 同 时 也 给 客户 端 发 出 一 个 连接 请 求 ， 同 时 声明 最 大 尺寸 为 1024。 
3. 客户 端 发 出 段 3 ， 对 服务 器 的 连接 请 求 进行 应 答 ， 确 认 序 号 是 8001。 
在 这 个 过 程 中 ， 客 户 端 和 服务 器 分 别 给 对 方 发 了 连接 请 求 ， 也 应 答 了 对 方 的 连接 请 求 ， 其 
务 需 的 请 求 和 应 答 在 一 个 段 中 发 出 ， 





最 大 段 尺寸 等 。 
在 TCP 通 讯 中 ， 如 果 一 方 收 到 另 一 方 发 来 的 段 ， 读 出 其 中 的 目的 端口 号 ， 发 现 本 机 并 没有 任何 





进程 使 用 这 个 端 



























































因此 一 共有 三 个 段 用 于 建立 连接 ， 称 为 "三 方 握手 (three- 
way-handshake) "。 在 建立 连接 的 同时 ， 双 方 协商 了 




















些 信 息 ， 例 如 双方 发 送 序号 的 初始 值 、 









































H, WAMA 


个 包含 RST 位 的 段 给 男 



































一 方 。 例 如 ， 服 务 器 并 没有 任何 进程 使 
























































ARSTE, 客户 端的 telnet 程 序 收 到 RST 段 后 报告 错误 Connection refused: 

















is telnet 192.168.0.200 8080 
invari 9s dlopcQ 20e 
: telnet: Unable to connect to remote host: Connection refused 


Heson, FETA telnet Pm FEE , ARG ae ACEI AS P x84 oem SYN EHS DV 





数据 传输 的 过 程 : 
1. 客户 端 发 出 段 4， 包 含 从 序号 1001 开 始 的 20 个 字 布 数据 。 














2. 服务 器 发 出 段 5， 确 认 序 号 为 1021， 对 序号 为 1001-1020 的 数据 表示 确认 收 到 ， 同 时 请 求 
ech 开始 的 数据 ， 服 务 器 在 应 答 的 同时 也 向 客户 端 发 送 从 序号 8001 开 始 的 10 个 























市 数据 ， 这 称 为 piggyback。 





3. 客户 端 发 出 段 6， 对 服务 器 发 来 的 序号 为 8001-8010 的 数据 表示 确认 收 到 ， 


号 8011 开 始 的 数据 。 





























请 求 发 送 序 










































































在 数据 传输 过 程 中 ，ACK 和 确认 序号 是 非常 重要 的 ， 应 用 程序 交 给 TCP 协 议 发 送 的 数据 会 暂 存 
在 TCP 层 的 发 送 缓冲 区 中 ， 发 出 数据 包 给 对 方 之 后 ， 只 有 收 到 对 方 应 答 的 ACK 段 才 知 道 该 数据 


















































包 确 实 发 到 了 对 方 ， 可 以 从 发 送 缓冲 区 中 释放 掉 了 ， 如 果 因 为 网 络 故障 丢失 了 数据 包 或 者 丢失 





























了 对 方 发 回 的 ACK 段 ， 经 过 等 待 超 时 后 TCP 协 议 自动 将 发 送 缓 冲 区 中 的 数据 包 生 
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这 个 例子 只 描述 了 最 简单 的 一 问 一 管 的 情景 ， 实 际 的 TCP 履 所 传输 过 程 可 以 收发 很 多 数 望 段 ， 













































































虽然 典型 的 情景 是 客户 端 主动 请 求 服务 髓 被 动 应 答 ， 但 也 不 是 必须 如 此 ， 事 







































































如 采 通 讯 过 程 只 能 采用 一 癌 一 答 的 方式 ， 收 和 发 两 个 方向 不 能 同时 传输 ， 在 同 














实 上 TCP 协 议 为 应 
用 层 提 供 了 全 双 工 (full-duplex) 的 服务 ， 双 方 都 可 以 主动 其 至 同时 给 对 方 发 送 数据 。 





时 间 只 允许 








个 方向 的 数据 传输 ， 则 称 为 " 半 双 工 (half-duplex) ", 假设 某 种 面向 连接 的 协议 是 半 双 工 的 ， 



























































则 只 需要 一 套 序号 就 够 了 ， 不 需要 通讯 双方 各 自 维护 一 套 序号 ， 想 一 想 为 什么 。 

















关闭 连接 的 过 程 : 
1. 客户 端 发 出 段 7，FIN 位 表示 关闭 连接 的 请 求 。 

2. 服务 器 发 出 段 8， 应 答 客户 端的 关闭 连接 请 求 。 

3. 服务 需 发 出 段 9， 其 中 也 包含 FIN 位 ， 疝 客户 端 发 送 关闭 连 接 请 求 。 
4. 客户 端 发 出 段 10， 应 答 服 务 右 的 关闭 连接 请 求 。 
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建立 连接 的 过 程 是 三 方 握手 ， 而 关闭 连接 通 阁 需 要 4 个 段 ， 服 务 需 的 应 答 和 关闭 连接 请 求 通 谨 不 












































合并 在 一 个 段 中 ， 因 为 有 连接 半 关 闭 的 情况 ， 这 种 情况 下 客户 端 关闭 连接 之 后 就 不 能 再 发 送 数 
据 给 服务 器 了 ， 但 是 服务 器 还 可 以 发 送 数据 给 客户 端 ， 直 到 服务 器 也 关闭 连接 为 止 ， 稍 后 会 看 



























































到 这 样 的 例子 。 


7.3. 流量 控制 











介绍 UDP 时 我 们 描述 了 这 样 的 问题 : 如 果 发 送 端 发 送 的 速度 较 快 ， 接 收 端 接收 到 数据 后 处 理 的 
速度 较 慢 ， 而 接收 缓冲 区 的 大 小 是 固定 的 ， 就 会 丢失 数据 。TCP 协 议 通过 " 消 动 窗口 (Sliding 


























Window) "机 制 解决 这 一 问题 。 看 下 图 的 通讯 过 程 。 








图 36.14. 滑动 窗口 

















fast sender slow receiver 


1 N, 0(0), win 4096, <mss 1460> 


SYN, 8000(0), ACK 1, win 6144, <mss 1024 


ACK 8001, win 4096 
1024), ACK 8001, win 4096 
025( 1024), ACK 8001, win 405% 
049( 1024), ACK 8001, win 405% 
07 3( 1024), ACK 8001, win 405% 


409 7( 1024), ACK 8001, win 409% 


21(1024), ACK 8001, win 4036 
ACK 6145, win 2048 
ECK 6145, win 4096 
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12 6 145( 1024), ACK 8001, win 4096 
13 IN, 7169(1024), ACK 800T, the 


ACK 8194, win 2048 
RTR 8194, win 4096 
K 8194, win 6144 


18 ACK 8002, win 4096 














. 发 送 端 发 起 连接 ， 声 明 最 大 段 尺 寸 是 1460， 初 始 序号 是 0， 窗 口 大 小 是 4K， 表 示 " 我 的 接 
收 缓冲 区 还 有 4K 字 市 空间 ， 你 发 的 数据 不 要 超过 4K”"。 接 收 端 应 答 连接 请 求 ， 声 明 最 大 段 


尺寸 是 1024， 初 始 序号 是 8000 ， 窗 口 大 小 是 6K。 发 送 端 应 答 ， 三 方 握手 结束 。 
















































































.发送 端 发 出 段 4-9， 每 个 段 带 1K 的 数据 ， 发 送 端 根据 窗口 大 小 知道 接收 端的 缓冲 区 满 了 ， 
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. Bd 
. ga 
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因此 停止 发 送 数 据 。 





. 接收 端的 应 用 程序 提 走 2K 数 据 ， 接 收 缓冲 区 义 有 了 了 2K 空间， 接收 端 发 出 段 10， 在 应 答 已 








收 到 6K 数 据 的 同时 声明 窗口 大 小 为 2K。 




















.接收 端的 应 用 程序 又 提 走 2K 数 据 ， 接 收 缓冲 区 有 4K 空 闲 ， 接 收 端 发 出 段 1{， 重 新 声明 窗 
口 大 小 为 4K。 
.发 送 端 发 出 段 12-13， 每 个 段 带 2K 数 据 ， 段 13 同 时 还 包含 FIN 位 。 


端 应 答 接 收 到 的 2K 数 据 (6145-8192) ， 再 加 上 FIN 位 占 一 个 序号 8193， 因 此 应 答 序 














号 是 8194 ， 连 接 处 于 半 关 闭 状态 ， 接 收 端 同时 声明 窗口 大 小 为 2K。 











性 端的 应 用 程序 提 走 2K 数 据 ， 接 收 端 重新 声明 窗口 大 小 为 4K。 
端的 应 用 程序 提 走 剩 下 的 2K 数 据 ， 接 收 缓冲 区 全 空 ， 接 收 端 章 新 声明 窗口 大 小 

















为 6K。 


端的 应 用 程序 在 提 走 全 部 数据 后 ， 决 定 关闭 连接 ， 发 出 段 17 包 含 FIN 位 ， 发 送 端 应 











答 ， 连 接 完 全 关闭 。 





上 图 在 接收 端 
区 ， 因 此 套 在 











用 小 方块 表示 1K 数 据 ， 实 心 的 小 方块 表示 已 接收 到 的 数据 ， 虚 线 框 表示 接收 组 ? 












































据 ， 虚 线 框 是 














向 右 滑动 的 ， 























虚线 框 中 的 空心 小 方块 表示 窗口 大 小 ， 从 图 中 可 以 看 出 ， 随 着 应 用 程序 提 走 数 




















因此 称 为 滑动 窗口 。 



































从 这 个 例子 还 可 以 看 出 ， 发 送 端 是 一 K 一 K 地 发 送 数据 ， 而 接收 端的 应 用 程序 可 以 两 K 两 K 地 提 走 


数据 ， 当 然 也 
程序 所 看 到 的 
很 多 数据 包 来 
流 的 协议 。 而 
提取 数据 ， 不 








bia 


有 可 外 一 次 提 走 3K 或 6K 数 据 ， 或 者 一 次 只 提 走 几 个 字 贡 的 数据 ， 也 就 是 说 ， 应 用 
























































数据 是 一 个 整体 ， 或 说 是 一 个 流 (stream) ， 在 底层 通讯 中 这 些 数据 可 能 被 拆 成 




















































































































发 送 ， 但 是 一 个 数据 包 有 多 少 字 节 对 应 用 程序 是 不 可 见 的 ， 因 此 TCP 协 议 是 面向 
UDP 是 面向 消息 的 协议 ， 每 个 UDP 段 都 是 一 条 消息 ， 应 用 程序 必须 以 消息 为 单位 
能 一 次 提取 任意 字 节 的 数据 ， 这 一 点 和 TCP 是 很 不 同 的 。 
dre es 
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2.5. imme 




















3. 基于 UDP 协议 的 网 络 程 
4. JE Domain Socket IPO 





























5.1. SARHTTP H 
5.2. 执行 CGI 程 序 


socket 这 个 词 可 以 表示 很 多 概念 : 


























。 在 TCP/IP 协 议 中 ,，“IP 地 址 +TCP 或 UDP 端 口号 "唯一 标识 网 络 通 的 一 个 进程 ，“IP 地 
址 + 端口 号 "就 称 socketa 


。 在 TCP 协 议 中 ， 建 立 连 接 的 两 个 进程 各 目 有 一 个 socket 来 标识 ， 那 么 这 两 个 socket 组 成 
的 socket pair 就 唯一 标识 一 个 连接 。socket 本 身 有 "插座 ”的 意思 ， 因 此 用 来 描述 网 络 连接 
的 一 对 一 关系 。 


。TCP/IP 协 议 最 早 在 BSD UNIX 上 实现 ,为 TCP/IP 协 议 设计 的 应 用 层 编程 接口 称 为 socket 
API. 
















































































































































































本 节 的 主要 内 容 是 socket API， 主 要 介绍 TCP 协 议 的 函数 接口 ， 最 后 简要 介绍 UDP 协议 和 UNIX 
Domain Socket 的 函数 接口 。 
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1. 预备 知识 


1.1. 网 络 字 节 序 























我 们 已 经 知道 ， 内 存 中 的 多 字 节 数据 相对 于 内 存 地 址 有 大 端 和 小 端 之 分 ， 磁 盘 文 件 中 的 多 字 
数据 相对 于 文件 中 的 偏 移 地 址 也 有 大 端 小 端 之 分 。 网 络 数据 流 同 样 有 大 端 小 端 之 分 ， 那 么 如 何 
定义 网 络 数据 流 的 地 址 呢 ”发 送 主 机 通常 将 发 送 缓冲 区 中 的 数据 按 内 存 地 址 从 低 到 高 的 顺序 发 
出 ， 接 收 主机 把 从 网 络 上 接 到 的 字 节 依次 保存 在 接收 缓冲 区 中 ， 也 是 按 内 存 地 址 从 低 到 高 的 顺 
序 保存 ， 因 此 ， 网 络 数据 流 的 地 址 应 这 样 规 定 : 先 发 出 的 数据 是 低地 址 ， 后 发 出 的 数据 是 高 地 
址 。 

TCP/P 协 议 规定 ， 网 络 数据 流 应 采用 大 端 字 节 序 ， 即 低地 址 高 字 节 。 例 如 上 一 节 的 UDP 段 格 
式 ， 地 址 0-1 是 16 位 的 源 端 口号 ， 如 果 这 个 端口 号 是 1000 (0x3e8) ， 则 地 址 0 是 0x03 Jt 
址 1 是 0xe8， 也 就 是 先 发 0x03， 再 发 0xe8， 这 16 位 在 发 送 主 机 的 缓冲 区 中 也 应 该 是 低地 址 
存 0x03 ， 高 地 址 存 0xe8。 但 是 ， 如 果 发 送 主 机 是 小 端 字 节 序 的 ， 这 16 位 被 解释 成 0xe803 ， 而 不 
是 1000。 因 此 ， 发 送 主 机 把 1000 填 到 发 送 缓冲 区 之 前 需要 做 字 节 序 的 转换 。 同 样 地 ， 接 收 主机 
如 果 是 小 端 字 节 序 的 ， 接 到 16 位 的 源 端 口号 也 要 做 字 节 序 的 转换 。 如 果 主 机 是 大 端 字 节 序 的 ， 
发 送 和 接收 都 不 需要 做 转换 。 同 理 ，32 位 的 IP 地 址 也 要 考虑 网 络 字 节 序 和 主机 字 节 序 的 问题 。 


为 使 网 络 程序 具有 可 移植 性 ， 使 同样 的 C 代 码 在 大 端 和 小 端 计算 机 上 编译 后 都 能 正常 运行 ， 可 以 
调用 以 下 库 函 数 做 网 络 字 市 序 和 主机 字 节 序 的 转换 。 



























































































































































































































































































































































































































































: #include <arpa/inet.h> 
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uint32 t hostlong); 
uintl16 t hostshort); 
uint32 t netlong); 

uintl16 t netshort); 





一 一 一 一 





这 些 函 数 名 很 好 记 ，h 表 示 host，n 表 示 network ，| 表 示 32 位 长 整数 ，s 表 示 16 位 短 整数 。 例 
如 htonl 表 示 将 32 位 的 长 整数 从 主机 字 市 序 转换 为 网 络 字 节 序 ， 例 如 将 IP 地 址 转换 后 准备 发 送 。 
如 有 果 主 机 是 小 端 字 届 序 ， 这 些 函 数 将 参数 做 相应 的 大 小 端 转换 然后 返回 ， 如 果 主 机 是 大 端 字 市 
序 ， 这 些 函 数 不 做 转换 ， 将 参数 原封 不 动 地 返回 。 


1.2. socket 地 址 的 数据 类 型 及 相关 也 数 


socket API 是 一 层 抽象 的 网 络 编程 接口 ， 适 用 于 各 种 底层 网 络 协议 ， 如 IPv4、IPv6 ， 以 及 后 面 
要 讲 的 UNIX Domain Socket。 然 而 ， 各 种 网 络 协议 的 地 址 格式 并 不 相同 ， 如 下 图 所 示 : 


























































































































图 37.1. sockaddr 数 据 结构 





struct struct struct 
sockaddr sockaddr in sockaddr un 


16 位 地 址 类 型 16 位 地 址 类 型 : 1 6 位 地 址 类 型 : 
AF_INET AF_UNIX 


16 位 端口 号 


32 位 IP 地 址 


8 字 节 
填充 





























IPv4 和 IPv6 的 地 址 格式 定义 在 netinety/in.h 中 ，IPv4 地 址 用 sockaddr_ in 结构 体 表 示 ， 包 括 16 位 
端口 号 和 32 位 IP 地 址 ，IPv6 地 址 用 sockaddr_ in6 结 构 体 表示 ， 包 括 16 位 端口 号 、128 位 IP 地 址 
和 一 些 控制 字段 。UNIX Domain Socket 的 地 址 格式 定义 在 sys/un.n 中 ， 用 sockaddr_un 结 构 体 
表示 。 各 种 socket 地 址 结构 体 的 开头 都 是 相同 的 ， 前 16 位 表示 整个 结构 体 的 长 度 (并 不 是 所 
有 UNIX 的 实现 都 有 长 度 字 段 ， 如 Linux 就 没有 ) ， 后 16 位 表示 地 址 类 型 。IPv4、IPv6 和 Unix 
Domain Socket 的 地 址 类 型 分 别 定义 为 常数 AF_ INET、 AF_INET6、AF_UNIX。 这 样 ， 只 要 取得 
某 种 sockaddr 结 构 体 的 首 地 址 ， 不 需要 知道 具体 是 哪 种 类 型 的 sockaddr 结 构 体 ， 就 可 以 根据 地 
址 类 型 字段 确定 结构 体 中 的 内 容 。 因 此 ，socket API 可 以 接受 各 种 类 型 的 sockaddr 结 构 体 指针 做 
参数 ， 例 如 bind、accept、connect 等 函数 ， 这 些 国 数 的 参数 应 该 设计 成 void * 类 型 以便 接受 各 

类 型 的 指针 ， 但 是 sock API 的 实现 早 于 ANSI C 标 准 化 ， 那 时 还 没有 void * 类 型 ， 因 此 这 些 函 数 
的 参数 都 用 struct sockaddr * 类 型 表示 ， 在 传递 参数 之 前 要 强制 类 型 转换 一 T, 例如 ， 




















































































































































































































































































































































































































































































































; struct sockaddr_in servaddr; 
i/o nttializs gervasi =/ 
! bind(listen fd, (struct sockaddr *)&servaddr, sizeof (servaddr) ); 























本 节 只 介绍 基于 IPv4 的 socket 网 络 编程 ， sockaddr in 中 的 成 员 struct in_addr sin_addr 表 示 32 位 
的 IP 地 址 。 但 是 我 们 通常 用 点 分 十 进 制 的 字符 串 表示 IP 地 址 ， 以 下 也 数 可 以 在 字符 串 表 示 

和 in_addr 表 示 之 间 转 换 。 

字符 串 转 in_addr 的 函数 : 












































: #include «arpa/inet.h» 


: int inet aton(const char *strptr, struct in_addr *addrptr); 
| aUe Exeloue 3E inet addr(const char *strptr); 
‘int inet pton(int family, const char *strptr, void *addrptr); 





in_addr 转 字符 串 的 函数 : 





: char *inet ntoa(struct in_addr inaddr); 
i const char *inet ntop(int family, const void *addrptr, char 
! *strptr, size t len); 





其 中 inet_pton 和 inet_ntop 不 仅 可 以 转换 IPv4 的 in_addr， 还 可 以 转换 IPv6 的 in6_addr， 因 此 函数 
接口 是 void *addrptr。 


ze 


2. 








下 图 是 基于 TCP 协 议 的 客户 








端 /服务 需 程 序 的 一 般 流 程 : 


2. 基于 TCP 协 议 的 网 络 程序 
第 37 章 socket 编 程 


于 TCP 协 议 的 网 络 程序 



























图 37.2. TCP 协 议 通讯 流程 
服务 器 应 TCP 屋 RE RSS AR 
CLOSED listenfd = socket() 
AYRe— 1 i 
bind(listenfd, RESSESI&tESSCI) 
Pte AR EPTC #pEliste nfd Heh 
目标 地 址 任意 
one LISTEN listen(listenfd, 连接 队列 长 度 ) 
fd = socket() 使 istenfd 成 为 一 个 监听 溢 述 符 
分 配 一 个 文件 搞 进 符 connfd = accept(listenfd, 3 Prsrstkhbs Q1) 
connect(fd, 服务 器 地 址 端 D) 。 SYN SEN SS FP DES 
ERE SYN_RCVD 
BSS FRSA 
connecSE 回 ESTABLISHED 
ESTABLISHED accept 返回 
Ainaa conn f dT Pris 
read(connfd, buf, size) 
write(fd, buf, size) 4 : 
AGE — - 
rea A 
W read(fd, buf, size) DE xu 
Sik | ASS aan —— € ii 
write(connfd, buf, size) 
memes 
Tea 中 E 回 
close(fd)55j3]&s& ^ FIN WAIT 1 read(connfd, buf, size) 
= FB RESI (SEP EGER, 
CLOSE ' readiE 回 0 
FIN_WAIT_2 LAST_ACK close(connfd) 
TIME_WAIT 
CLOSED CLOSED 
服务 器 调用 socket0、bind0、Iisten0 完 成 初始 化 后， 调用 accept0 阻 计 等 待 ， 处 于 监听 端口 的 状 
态 ， 客 户 端 调用 socket() 初 始 化 后 ， 调 用 connect() 发 出 SYN 段 并 阻塞 等 待 服务 器 应 答 ， 服 务 器 应 
答 一 个 SYN-ACK 段 ， 客 户 端 收 到 后 从 connect() 返 回 ， 同 时 应 答 一 个 ACK 段 ， 服 务 器 收 到 后 
从 accept(0 返 回 。 
数据 传输 的 过 程 : 





建立 连接 后 ，TCP 协 议 提供 全 双 工 的 通信 服务 ， 但 是 一 般 的 客 
被 动 处 理 请 求 ， 
调用 read()， 谈 socket 就 像 读 管道 一 样 ， 如 果 没 有 数据 到 达 
， 服 务 器 收 到 后 从 read() 返 





端 主动 发 起 请 求 ， 服 务 器 
用 write() 发 送 请 求 给 服务 器 

















一 问 一 答 的 方式 。 











户 端 /服务 需 程 序 的 流 和 
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"EHE 


因此 ， 服 务 器 从 accept() 返 回 后 立刻 
就 阻塞 等 符 ， 








这 时 客户 端 调 








回 ， 对 客 








"端的 请 求 进行 处 理 ， 在 此 期 间 



































































































































& ms FH read () BASE RHR oS ie I, HRS aie Hel o 结果 发 癌 给 客 FU, FRAJ] 
用 read() 阻 塞 等 待 下 一 条 请 求 ， 客 户 端 收 到 后 从 read() 返 回 ， 发 送 下 一 条 请 求 ， 如 此 循环 下 去 。 
如 果 客 户 端 没有 更 多 的 请 求 了 ， 就 调用 close() 关 闭 连接 ， 就 像 写 端 关闭 的 管道 一 样 ， 服 务 器 





的 read 

















(0 返回 0， 










































































这 样 服 务 吉 就 知道 客户 端 关 团 了 连接 ， 也 调用 close() 关 闭 连 接 。 注 意 ， 任 何 一 


方 调 用 close() 后 ， 连 接 的 两 个 传输 方向 都 关闭 ， 不 能 再 发 送 数据 了 。 如 果 一 方 调 























如 read 


数 时 TCP 协 议 














用 shutdown() 则 连接 处 于 半 关 闭 状 态 ， 仍 可 接收 对 方 发 来 的 数据 。 


















































在 学 习 socket API 时 要 注意 应 用 程序 和 TCP 协 议 层 是 如 何 交互 的 : * 应 用 程序 调 














FA socket 21 






























































0) 返回 0 就 表明 收 到 了 FIN 段 
最 简单 的 TCP 网 络 程序 


























通过 最 简单 的 客户 端 /服务 器 程序 的 实例 来 学 习 socket API 



































层 完 成 什么 动作 ， 比 如 调用 connect() 会 发 出 SYN 段 * 应 用 程序 如 何 知道 TCP 协 议 
慨 的 状态 变化 ， 比 如 从 某 个 阻塞 的 socket 函 数 返回 就 表明 TCP 协 议 收 到 了 某 些 段 ， 再 比 





从 客户 端 读 字符 ， 然 后 将 每 个 字符 转换 为 大 写 并 回 送 给 客户 端 。 


i /* server.c */ 

: #include <stdio.h> 

: #include <stdlib.h> 

: finclude <string.h> 

: #include <unistd.h> 

: #include <sys/socket.h> 
i #include <netinet/in.h> 


| &define MAXLINE 80 
i #define SERV PORT 8000 


: int main(void) 


i { 


struct sockaddr_in servaddr, cliaddr; 
socklen_t cliaddr_len; 

ajc LSEM e onte 

char buf [MAXLINE]; 

char str[INET ADDRSTRLEN]; 

agir. diy Soup 

listenfd = socket(AF INET, SOCK STREAM, 0); 
bzero(&servaddr, sizeof(servaddr)); 
servaddr.sin family = AF INET; 

servaddr.sin addr.s addr = htonl(INADDR ANY); 
Servaddr.sin port = htons (SERV PORT); 


bind(listenfd, (struct sockaddr *)&servaddr, 


: sizeof (servaddr)); 


| &cliaddr len); 


‘ sizeof (str)), 


listen(listenfd, 20); 


printf ("Accepting connections ...\n"); 
while (1) { 
cliaddr len = sizeof (cliaddr) ; 


connfd = accept (listenfd, 
(struct sockaddr *)&cliaddr, 


n = read(connfd, buf, MAXLINE) ; 
printf("received from %s at PORT %d\n", 
inet_ntop(AF_INET, &cliaddr.sin_addr, 





ntohs (cliaddr.sin port)); 


none “(al = OS a «€ dap. ales) 
buf[i] = toupper (buf[il); 


Sus 


waco e (G@imuqiccl, lom, T0) g 
close (connfd); 



































下 面 介绍 程序 中 用 到 的 socket API, JE ERU ESys/ socket .n He 




















: int socket (int family, int type, int protocol); 


























socket() 打 开 一 个 网 络 通 讯 端 口 ， 如 果 成 功 的 话 ， 就 像 open() 一 样 返 回 一 个 文件 描述 符 ， 用 程 
序 可 以 像 读 写 文件 一 样 用 read/write 在 网 络 上 收发 数据 ， 如 果 socket() 调 用 出 错 则 返回 -1。x 
于 IPv4 ，family 参 数 指定 为 AF_INET。 对 于 TCP 协 议 ，type 参 数 指定 为 SOCK_STREAM， 表示 
面向 流 的 传输 协议 。 如 果 是 UDP 协议 ， 则 type 参 数 指 定 为 SOCK_DGRAM ， 表 示 面 向 数据 报 的 
传输 协议 。protocol 参 数 的 介绍 从 略 ， 指 定 为 0 即 可 。 






















































































IME bind(int sockfd, const struct sockaddr *myaddr, socklen_t 
; addrlen); 

















服务 器 程序 所 监听 的 网 络 地 址 和 端口 号 通常 是 固定 不 变 的 ， 客 户 端 程序 得 知 服务 器 程序 的 地 址 
和 端口 号 后 就 可 以 向 服务 器 发 起 连接 ， 因 此 服务 器 需要 调用 bind 绑 定 一 个 固定 的 网 络 地 址 和 端 
口号 。bind() 成 功 返 回 0， 和 失败 返回 -1。 


bind() 的 作用 是 将 参数 sockfd 和 myaddr 绑 定 在 一 起 ， 使 sockfd 这 个 用 于 网 络 通 讯 的 文件 描述 符 监 
听 myaddr 所 摘 述 的 地 址 和 端口 号 。 前 面 讲 过 ，struct sockaddr * 是 一 个 通用 指针 类 
型 ，myaddr 参 数 实际 上 可 以 接受 多 种 协议 的 sockaddr 结 构 体 ， 而 它们 的 长 度 各 不 相同 ， 所 以 需 
要 第 三 个 参数 addrlen 指 定 结构 体 的 长 度 。 我 们 的 程序 中 对 myaddr 参 数 是 这 样 初始 化 的 : 






































































































































































































































i bzero (&servaddr, sizeof (servaddr) ); 

|! servaddr.sin_family = AF INET; 

‘ servaddr.sin addr.s addr = htonl(INADDR ANY); 
: servaddr.sin port = htons (SERV PORT); 








首先 将 整个 结构 体 清 零 ， 然 后 设置 地 址 类 型 为 AF_ INET， 网 络 地址 为 INADDR_ANY ， 这 个 宏 表 
示 本 地 的 任意 IP 地 址 ， 因 为 服务 器 可 能 有 多 个 网 卡 ， 每 个 网 卡 也 可 能 绑 定 多 个 IP 地 址 ， 这 样 设 
置 可 以 在 所 有 的 IP 地 址 上 监听 ， 直 到 与 某 个 客户 端 建立 了 连接 时 才 确 定 下 来 到 底 用 哪个 IP 地 
址 ， 端 口号 为 SERV_PORT, 我 站 定义 为 8000。 




























































































: int listen(int sockfd, int backlog); 






























































典型 的 服务 器 程序 可 以 同时 服务 于 多 个 客户 端 ， 当 有 客户 端 发 起 连接 时 ， 服 务 器 调用 
的 accept() 返 回 并 接受 这 个 连接 ， 如 果 有 大 量 的 客 户 端 发 起 连接 而 服务 器 来 不 及 处 理 ， 尚 
未 accept 的 客户 端 就 处 于 连接 等 待 状态 ，listen() 声 明 sockfd 处 于 监听 状态 ， 
有 backlog 个 客户 端 处 于 连接 竺 状态， 如 果 接 收 到 更 多 的 连接 请 求 就 忽略 。listen() 成 功 返 
失败 返回 -1。 




























































































Paine accept (int sockfd, struct sockaddr *cliaddr, socklen t 
: *addrlen) ; 



































三 方 握手 完成 后 ， 服 务 器 调用 accept() 接 受 连 接 ， 如 果 服 务 器 调用 accept() 时 还 没有 客户 端的 连 
接 请 求 ， 就 阻塞 等 待 直到 有 客户 端 连接 上 来 。cliaddr 是 一 个 传 出 参数 ，accept() 返 回 时 传 出 客户 
端的 地 址 和 端口 号 。addrlen 参 数 是 一 个 传 入 传 出 参数 (value-result argument) ， 传 入 的 是 调 
用 者 提供 的 缓冲 区 cliaddr 的 长 度 以 避免 缓冲 区 溢出 问题 ， 传 出 的 是 客户 端 地 址 台 吉 构 体 的 实际 长 
E (有 可 能 没有 占 满 调用 者 提供 的 缓冲 区 ) 。 如 果 给 cliaddr 参 数 传 NULL， 表 示 不 关心 客户 端的 




































































































































































地 址 。 














3 1 AR SS at 


: while (1) 1 


旦 序 结构 是 这 样 的 : 











cliaddr len = sizeof(cliaddr); 
connfd - accept (listenfd, 

(struct sockaddr *)&cliaddr, &cliaddr len); 
n — read(connfd, buf, MAXLINE); 





close(connfd); 






































整个 是 一 个 while 死 循环 ， 每 次 循环 处 理 一 个 客户 端 连 接 。 由 于 cliaddr_len 是 传 入 传 出 参数 ， 
次 调用 accept() 之 前 应 该 重新 赋 初 值 。accept() 的 参数 listenfd 是 先前 的 监听 文件 描述 符 ， 

回 值 是 另外 一 个 文件 描述 符 connfd ， 之 后 与 客户 端 之 间 就 通过 这 个 connfd 通 讯 ， 
最 后 关闭 connfd 断 开 和 连接， 而 不 关闭 listenfd， 再 次 回 到 循环 开头 listenfd 仍 然 用 作 accept 的 参 
数 。accept() 成 功 返 回 一 个 文件 描述 符 ， 出 错 返 回 -1。 














而 accept() 的 返 
























































































































































client.c 的 作 月 
打印 。 





是 从 命令 行 参数 中 获得 一 个 字符 串 发 给 服务 器 ， 然 后 接收 服务 需 返 回 的 字符 上 











Pe soul Demin ce d 


Finci 
; #incl 


ude <stdio.h> 
ude <stdlib.h> 


' #include <string.h> 


i #incl 


ude <unistd.h> 


i #include <sys/socket .h> 
: #include <netinet/in.h> 


i #def 
‘Hdef 





ine MAXLINE 80 
ine SERV_PORT 8000 


' int main(int argc, char *argv[]) 


a 


i size 


struct sockaddr_in servaddr; 
char buf [MAXLINE]; 

int sockfd, n; 

Chan S STI 


if (arge != 2) { 
fputs("usage: ./client message\n", stderr); 
exit(1); 

} 

str = argv[1]; 


sockfd = socket (AF_INET, SOCK STREAM, 0); 


bzero(&servaddr, sizeof (servaddr) ); 
servaddr.sin_family = AF_INET; 

inet pton(AF INET, "127.0.0.1", &servaddr.sin addr); 
Servaddr.sin port - htons(SERV PORT); 


connect(sockfd, (struct sockaddr *)&servaddr, 
of (servaddr)); 


write(sockfd, str, strlen(str)); 
n — read(sockfd, buf, MAXLINE); 


printf ("Response from server:\n"); 
write(STDOUT_FILENO, buf, n); 


close (sockfd); 
return 0; 





每 





















































由 于 客户 端 不 需要 固定 的 端口 号 ， 因 此 不 必 调 用 bind()， 客 户 端的 端口 号 由 内 核 上 自动 分 配 。 注 
意 ， 客 户 端 不 是 不 允许 调用 bind()， 只 是 没有 必要 调用 bind() 固 定 一 个 端口 号 ， 服 务 器 也 不 是 必 
须 调 用 bind() ， 但 如 果 服 务 器 不 调用 bind() ， 内 核 会 自动 给 服务 器 分 配 监听 端口 ， 每 次 启动 服务 


句 时 端口 号 都 不 一 样 ， 客 户 端 要 连接 服务 器 就 会 遇 到 麻烦 。 

































































































































































E connect (int sockfd, const struct sockaddr *servaddr, socklen t 
; addrlen) ; 





























客户 端 需要 调用 connect() 连 接 服务 器 ，connect 和 bind 的 参数 形式 一 致 ， 区 别 在 于 bind 的 参数 
自己 的 地 址 ， 而 connect 的 参数 是 对 方 的 地 址 。connect() 成 功 返 回 0， 出 错 返 回 -1。 
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AR EEXSTTHILAS nn: 








































E netstat -apn|grep 8000 
ECP 0 0 0.0.0.0:8000 0-0-0- 8 *5 
: LISTEN 8148/server 








可 以 看 到 server 程 序 监听 8000 端 口 ，IP 地 址 还 没 确定 下 来 。 现 在 编译 运行 客户 端 : 











:$ ./client abcd 
: Response from server: 
: ABCD 





回 到 server 所 在 的 终端 ， 看 看 server 的 输出 : 











: $ ./server 
Accepting connections ... 
received from 127.0.0.1 at PORT 59757 
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再 做 一 个 小 实验 ， 在 客户 端的 connect() 代 码 之 后 插 一 个 while(1); 死 循环 ， 使 客户 端 和 服务 器 者 
处 于 连接 中 的 状态 ， 用 netstat 命 令 查看 : 


是 自动 分 配 的 。 现 在 把 客户 端 所 连接 的 服务 需 IP 改 为 其 它 主 机 的 IP ， 试 试 

























































































: $ ./server & 

Fl BAS 

: djkings@djkings—laptop:~$ Accepting connections ... 
|: ./client abcd & 





: [2] 8344 

: djkings@djkings-laptop:~$ netstat -apn|grep 8000 

BECP 0 0 0.0.0.0:8000 OPIOPOPIOESS 

: LISTEN 8343/server 

SD 0 0 127.0.0.1:44406 27-0-0113 09 
: ESTABLISHED8344/client 

i tcp 0 o 1270-0 :000 127.0.0.1:44406 
: ESTABLISHED8343/server 


























应 用 程序 中 的 一 个 socket 文 件 描述 符 对 应 一 个 socket pair， 也 就 是 源 地 址 : 源 端口 号 和 目的 地 
址 :目的 端口 号 ， 也 对 应 一 个 TCP 连 接 。 

















表 37.1. client 和 server 的 socket 状 态 


socket 文 件 描述 符 | 源 地 址 : 源 端 口号 | 目的 地 址 :目的 端口 号 
server.c 中 的 listenfd|0.0.0.0:8000 0.0.0.0:* LISTEN 




















server.c 中 的 connfd |127.0.0.1:8000 |127.0.0.1:44406 ESTABLISHED 
client.c 中 的 sockfd |127.0.0.1:44406 127.0.0.1:8000 ESTABLISHED 

















2. 错误 处 理 与 读 写 控制 


上 面 的 例子 不 Mo ny 而 且 简单 到 几乎 没有 什么 错误 处 理 ， 我 们 知道 ， 系 统 调用 不 能 保 订 
每 次 都 成 功 ， 必 须 进 行 出 错 处 理 ， 这 样 一 方面 可 以 保证 程序 逻辑 正常 ， 男 一 方面 可 以 迅速 得 至 
故障 信息 。 


为 使 错误 处 理 的 代码 不 影响 主 程序 的 可 读 性 ， 我 们 把 与 socket 相 关 的 一 些 系统 函数 加 上 错误 处 
理 代码 包装 成 新 的 函数 ， 做 成 一 个 模块 wrap.c: 


| #include <stdlib.h> 
: #include <errno.h> 
|: #include <sys/socket.h> 


















































































































































C— PT 






























































































































































: void perr_exit (const char *s) 
R4 
: perror (s); 
: exit(1); 
:] 


| iluWE Accept(int fd, struct sockaddr *sa, socklen t *salenptr) 
Pd 


alge, Ay 


if ( (n = accept(fd, sa, salenptr)) < 0) { 
if ((errno == ECONNABORTED) || (errno == EINTR)) 
goto again; 
else 
perr_exit ("accept error"); 
} 
return n; 


d 


: void Bind(int fd, const struct sockaddr *sa, socklen t salen) 

P4 

E if (bind(fd, sa, salen) < 0) 
perr exit("bind error"); 


E 


‘ void Connect(int fd, const struct sockaddr *sa, socklen t salen) 

Pd 

: if (connect(fd, sa, salen) « O0) 
perr exit("connect error"); 


a 


‘void Listen (int fd, int backlog) 
R4 
H if (listen(fd, backlog) < 0) 
perr_exit ("listen error"); 

Bul 

: int Socket (int family, int type, int protocol) 
E 


A ot 


if ( (n^ socket(family, type, protocol)) < 0) 


perr_exit ("Socket error"); 
return n; 


i) 


| ssize t Read(int fd, void *ptr, size t nbytes) 
 { 


ssize_t n; 


alse A (io) — eero joie, deleSAEGES)) == Dl 
if (errno == EINTR) 
goto again; 
else 
ieee wie Alp 
} 
return n; 


i) 


| ssize t Write(int fd, const void *ptr, size t nbytes) 
i { 


ssize_t n; 


if ( (n = write(fd, ptr, nbytes)) == -1) { 
if (errno == EINTR) 
goto again; 
else 
SEOUL = 
} 
return n; 


i) 


| void Close(int fd) 
 { 


if (close(fd) == -1) 
perr_exit ("Close error"); 
































| 

















慢 系 统 调用 accept、read 和 write 被 信号 中 断 时 应 该 重 坛 。connect 虽 然 也 会 阻塞 ， 但 是 被 信和 号 
断 时 不 能 立刻 重 试 。 对 于 accept， 如 果 errno 是 ECONNABORTED ， 也 应 该 重 试 。 详 细 解 释 见 参 
考 资 料 。 


TCP 协 议 是 面向 流 的 ，read 和 write 调用 的 返回 值 往 往 小 于 参数 指定 的 字 节 数 。 对 于 read 调 用 ， 
如 果 接 收 缓冲 区 中 有 20 字 节 ， 请 求 读 100 个 字 节 ， 就 会 返回 20。 对 于 write 调用 ， 如 果 请 求 
写 100 个 字 节 ， 而 发 送 缓冲 区 中 只 有 20 个 字 节 的 空 x 闲 位 置 ， 那 么 write 会 阻塞 ， 直 到 把 100 个 字 节 
全 部 交 给 发 送 绥 冲 区 才 返 回 ， 但 如 果 socket 文 件 描述 符 有 QO_ NONBLOCK 标 志 ， 则 write 不 阻 

塞 ， 直 接 返回 20。 为 避免 这 些 情况 干扰 主 程序 的 逻辑 ， 确 保 读 写 我 们 所 请 求 的 字 节 数 ， 我 们 实 
现 了 两 个 包装 函数 readn 和 writen ， 也 放 在 wrap.c 


: ssize_t Readn(int fd, void *vptr, size t n) 


E 





































































































































































































































































































size_t nleft; 
ssize_t nread; 
char EPEA 


ptr = vptr; 


nleft = n; 
while (nleft > 0) { 
if ( (nread = read(fd, ptr, nleft)) < 0) { 
if (errno == EINTR) 
nread = 0; 
else 
sertu lp 
} else if (nread == 0) 
break; 
nleft -= nread; 


ptr += nread; 


i} 


|! ssize_t 


i 


} 


Tae dg. —- Jolie 


Writen(int fd, const void *vptr, size t n) 


Give dg ne 
Ssize t nwritten; 
COM sisse ESI ITI 


JO e Wowie? 


== EINTR) 


nleft = n; 
while (nleft > 0) { 
if ( (nwritten = write(fd, ptr, nleft)) <= 0) { 
if (nwritten < 0 && errno 
nwritten = 0; 
else 
eee ils 
} 
nleft -= nwritten; 


ptr += nwritten; 


} 


return n; 


















































如 果 应 用 层 协议 的 各 字段 长 度 固 定 ， 用 readn 来 读 是 非常 方便 的 。 例 如 设计 一 种 客 
的 协议 ， 规 定 前 12 字 贡 表 示 文 件 名 ， 超 过 12 字 节 的 文件 名 截断 ， 


齐 ， 从 第 13 字 市 开始 是 文件 
用 readn 读 12 个 字 节 ， 根 据 文件 名 创建 文件 ， 
环 结束 的 条 件 是 read 返 回 0。 


字段 长 度 固 定 的 协议 往往 不 够 灵活 ， 难 以 适 
名 加 “加 3 字 贡 扩展 名 ， 不 超过 12 字 节 ， 但 是 现代 操作 系 统 的 文件 
制定 一 个 新 版 本 的 协议 规定 文件 名 字段 为 256 字 
， 因 为 大 多 数 文件 名 都 很 短 ， 
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BHT. ABA 
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内 容 ， 上 传 完 所 有 文件 







































































然后 在 一 个 循环 





不 足 12 字 节 的 文件 名 月 
内 容 后 关闭 连接 ， 服 务 絮 可 以 先 调 





Pig EE SCPE 
H'\O'*h 



































怎么 村 


















































程序 无 法 兼容 ， 

















序 的 互 操作 性 (Interoperability) 问 














如 果 已 经 有 很 多 人 在 用 老 版 本 的 程序 了 ， 会 





























题 。 




















是 文件 名 ， 
本 的 程序 无 法 兼容 


























的 问题 。 





























以 \0' 为 分 隔 符 ， 
TE 


文件 











名 可 以 任意 长 ， 再 看 blksize 等 几 个 选 
而 是 把 选项 的 描述 信 





























节 是 blksize 的 值 ， 




















可 变 长 的 字段 ， 


这 样 ， 
i 认识 的 选项 就 行 











1). 



































内 容 





中 调用 read 读 文件 内 容 并 存盘 ， 循 


应 新 的 变化 。 比 如 ， 以 前 DOS 的 文件 
名 可 以 长 得 多 ， 





























4348536 13: X 
12 字 节 就 不 





E? iR 
需要 用 大 量 的 \0' 补 齐 256 字 节 ， 而 且 新 版 本 的 协议 和 老 版 本 的 
造成 遵循 新 协议 的 程序 与 老 版 本 程 
如 果 新 版 本 的 协议 要 添加 新 的 字段 ， 比 如 规定 前 12 字 己 
从 13 到 16 字 市 是 文件 类 型 说 明 ， 从 第 17 字 市 开始 才 是 文件 














又 造成 很 大 的 浪 























同样 会 造成 和 老 版 





现在 重新 看 看 上 一 节 的 TFTP 协 议 是 如 何 避 免 上 述 问 题 的 : TFTP 协 议 的 各 字段 是 可 变 长 的 ， 
先 项 字段 ，TFTP 协 议 并 没有 规定 从 





息 “blksize” 与 它 的 
以 后 添加 新 的 选项 仍然 可 以 和 老 版 本 的 程序 兼容 























直 “512” 
( 老 版 本 的 程 ) 


起 做 成 一 个 


FHEA 



































因此 ， 常 见 的 应 月 








层 协 议 都 是 带 有 可 变 长 字段 的 ， 字 段 之 间 














见 ， 例 如 本 节 后 





面 要 介 











绍 的 HTTP 协 议 。 可 变 长 字段 的 协议 








门 实现 一 个 类 似 于 











Ffgets 的 readline 函 数 ， 也 放 在 wrap.c 中 : 

















的 分 隔 符 月 





换行 的 比 用 \0' 的 更 常 









































readn 来 读 就 很 不 方便 了 ， 为 此 我 


‘static ssize t my read(int fd, char *ptr) 


而 


| sizeof (read_buf))) < 0) ( 


sos ne align, Ceac (ion 
static char *read_ptr; 
static char read_buf[100]; 


if (read-cnt <= 0) { 
again: 


if ( (read cnt 


if (errno == EINTR) 


goto again; 


read(fd, read buf, 


asec ils 
} else if (read cnt == 0) 
return 0; 
read_ptr = read_buf; 
} 
read cnt--; 
Er = read ipe CI 
sevan dio 


b 


! ssize t Readline(int fd, void *vptr, size t maxlen) 
E 

| Ssize t n, rc; 

char GC, SOERA 

ptr = vptr; 

for (n = 1; n < maxlen; n++) { 

: if ( (rc = my read(fd, &c)) == 1) { 
SOEs E CP 

i we (eg == Na 

: break; 

| } else if (re == 0) { 

more = OF 

i return n - 1; 

: } else 

| return -1; 

i } 

i xptr = 0; 

: return n; 

Pj 














r 






































网 络 程序 代码 都 要 用 到 这 个 头 文件 。 








1、 请 读者 自己 写 出 wrap.c 的 头 文件 wrap.h， 后 面 的 



































1r 
ta 




















2、 修 改 server.c 和 clientc， 添 加 错误 处 
2.3. 把 client 改 为 交互 式 输入 


目前 实现 的 client 每 次 运行 只 能 从 命令 行 读 取 一 个 字符 串 发 给 服务 器 ， 再 从 服务 器 收回 来 ， 现 在 
我 们 把 它 改 成 交互 式 的 ， 不 断 从 终端 接受 用 户 输入 并 和 server 交 互 。 

C * eliane xf 

i #include <stdio.h> 

: #include <string.h> 

i #include <unistd.h> 

: #include <netinet/in.h> 

: #include "wrap.hn" 






































i #define MAXLINE 80 
| #define SERV PORT 8000 


ditt main(int argc, char *argv[]) 
E 
: struct sockaddr_in servaddr; 
char buf [MAXLINE]; 

ahigie, GYovelicel, ins 


sockfd = Socket (AF_INET, SOCK STREAM, 0); 


bzero(&servaddr, sizeof (servaddr) ); 
servaddr.sin_family = AF_INET; 

inet pton(AF INET, "127.0.0.1", &servaddr.sin addr); 
Servaddr.sin port - htons(SERV PORT); 


| Connect (sockfd, (struct sockaddr *)&servaddr, 
: sizeof (servaddr)); 


while (fgets(buf, MAXLINE, stdin) != NULL) { 
Write(sockfd, buf, strlen(buf)); 
n — Read(sockfd, buf, MAXLINE); 


agg (m == 9 


: closed. Wn"); 
i else 


} 


Close (sockfd); 
return 0; 


printf("the other side has been 


Write(STDOUT FILENO, buf, n); 








编译 并 运行 server 和 client ， 看 看 是 否 达到 了 你 预想 的 结果 。 











:$ ./client 

; hahal 

: HAHA1 

: haha2 

| the other side has been closed. 
i haha3 

i$ 

















这 时 server 仍 在 运行 ， Ecc E 吉 果 并 不 正确 。 原 
现 ，server 对 每 个 请 求 只 处 理 应 答 后 就 关闭 连接 ，client 不 能 继续 使 
write 调 用 只 负责 把 









































据 。 但 是 client 下 次 循环 时 又 调 a server, 


































































































冲 区 就 可 以 成 功 返 回 了 ， 所 以 不 会 出 错 ， 而 server 收 到 
到 RST 上 段 后 无 法 立刻 通 BAI 用 层 ， 只 把 这 个 状态 保存 在 TCP 协 议 
write 发 数据 给 server， 由 于 TCP 协 议 层 已 经 处 于 RST 状 态 了 ， 











因 是 什么 呢 ?” 仔 细 查 看 server.c 可 以 发 




















用 这 个 连接 发 送 数 



































数据 交 给 TCP 发 送 组 


数据 后 应 答 一 个 RST 段 ，client 收 















































一 个 SIGPIPE 信 号 给 应 HE, SIGPIPE 信 和 号 的 缺 省 处 到 


象 。 























E. client KYA IH 
因此 不 会 将 数据 发 出 ， 而 是 发 
动作 是 终止 程序 ， 所 以 看 到 上 面 的 现 
































Zu ence NE 上 面 的 代码 应 该 在 判断 对 方 关闭 了 连接 后 break 出 循环 ， 而 不 是 继 
续 write。 另 外 ， 有 时 候 代 码 中 需要 连续 多 次 调用 write , 

























































































































































































可 能 还 来 不 及 调用 read 得 知 对 方 已 关闭 




















J EREALSIGPIPE (a SAIET, A E H sigactiongk? 
果 SIGPIPE 信 号 没有 导致 进程 异常 退出 ，write 返 回 -1 并 且 errno 为 EPIPE 。 


另外 ， 我 们 需要 修改 server， 使 它 可 以 多 次 处 理 同一 客户 端的 请 求 。 








H 





ESIGPIPE 信 号 ， 如 














wy Sav Sy 

: finclude <stdio.h> 

i #include <string.h> 

i finclude <netinet/in.h> 
i #include "wrap.h" 


| #define MAXLINE 80 
i #define SERV PORT 8000 


' int main (void) 


i 


SOeklen tt clita ci co Ie 

int listenfd, connfd; 

char buf [MAXLINE]; 

char str[INET ADDRSTRLEN]; 
agg aL. inp 


struct sockaddr in servaddr, cliaddr; 


listenfd = Socket(AF INET, SOCK STREAM, 0); 


bzero(&servaddr, sizeof(servaddr)); 


servaddr.sin family = AF INET; 


servaddr.sin addr.s addr = htonl(INADDR ANY); 


Servaddr.sin port = htons(SERV_PORT); 


Bind(listenfd, (struct sockaddr *)&servaddr, 
: sizeof (servaddr) ); 


Listen(listenfd, 20); 





printf ("Accepting connections ...\n"); 
while (1) { 
cliaddr len = sizeof (cliaddr) ; 


connfd = Accept (listenfd, 
: (struct sockaddr *)&cliaddr, 
: &cliaddr len); 
| while (1) { 
n = Read(connfd, buf, MAXLINE) ; 
if (n == 0) { 
printf("the other side has been 





: closed.\n"); 
break; 

} 

printf("received from %s at PORT %d\n", 
: inet ntop(AF INET, 

: &cliaddr.sin addr, Ses, SZE (G2) ) p 

: ntohs (cliaddr.sin port)); 


for (i = 0; i < n; i++) 
loys [ak te oues to NN 
Werte e ots CUPIS UE A); 


} 


Close (connfd) ; 


























经 过 上 面 的 修改 后 ， 客 户 端 和 服务 器 可 以 进行 多 次 交互 了 。 我 们 知道 ， 服 务 需 通常 是 要 同时 服 
务 多 个 客户 端的 ， 运 行 上 面 的 server 和 client 之 后 ， 再 开 一 个 终端 运行 client 试 试 ， 新 的 client 能 
得 到 服务 吗 > 想 想 为 什么 。 


2.4. 使 用 fork 并 发 处 理 多 个 client 的 请 求 


怎么 解决 这 个 问题 ?网 络 服务 器 通常 用 fork 来 同时 服务 多 个 客户 端 ， 父 进程 专门 负责 监听 端口 ， 
每 次 accept 一 个 新 的 客户 端 连接 就 fork 出 一 个 子 进程 专门 服务 这 个 客户 端 。 但 是 子 进程 退出 时 会 
产生 僵尸 进程 ， 父 进程 要 注意 处 理 SIGCHLD 信 号 和 调用 wait 清 理 僵尸 进程 。 


以 下 给 出 代码 框架 ， 完 整 的 代码 请 读者 自己 完成 。 


uh Ene oe 
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: bind (listenfdqd, SET 
|: listen(listenfd, ...); 
‘while (1) { 
| connfd = accept(listenfd, ...); 
n = fork(); 
if (n == -1) { 
perror("call to fork"); 
exit (1); 
} else if (n == 0) { 


close (listenfd) ; 
while (1) { 


meauceomb cl 45) P 
eser (Coie, 3 5) P 
} 
close (connfd); 
exit (0); 


} else 


close(connfd); 





2.5. setsockopt 

















现在 做 一 个 测试 ， 首 先 启动 server， 然 后 启动 client， 然 后 用 Ctrl-C 使 server 终 止 ， 


行 server， 结 果 是 : 




















: $ ./server 
: bind error: Address already in use 


这 时 马上 再 运 





























这 是 因为 ， 虽 然 server 的 应 用 程序 终止 了 ， 但 TCP 协 议 层 的 连接 并 没有 完全 断 开 ， 
监听 同样 的 server 端 口 。 我 们 用 netstat 命 令 查 看 一 下 : 
































(6 netstat -apn |grep 8000 


| RES 1 O 127-00 assis 2T 001 H000 
: CLOSE WAIT 10830/client 

: © 1270-0 138000 127.0.0.1:33498 
i FIN_WAIT2 - 


因此 不 能 再 次 














server 终 止 时 ，socket 摘 述 符 会 自动 关闭 并 发 FIN 段 给 client ，client 收 到 FIN 后 处 

















发 FIN 给 server， 因 此 server 的 TCP 连 接 处 于 FIN_WAIT2 状 态 。 


现在 用 Ctrl-C 把 client 也 终止 掉 ， 再 观察 现象 : 















































(6 netstat -apn |grep 8000 
Eee 0 (OESTE 7T X OSTIO 00:0) 127.0.0.1:44685 
| TIME WANT TOR = 

Ser 

: bind error: Address already in use 


于 CLOSE_WAIT 状 态 ， 但 是 client 并 没有 终止 ， 也 没有 关闭 socket 描 述 符 ， 因此 不 会 








client 终 止 时 自动 关闭 socket 描 述 符 ，server 的 TCP 连 接收 到 client 发 的 FIN 段 后 处 
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于 TIME_WAIT 状 态 。TCP 协 议 规定 ， 主 动 关 闭 连接 的 一 方 要 处 于 TIME_WAIT 状 态 ， 
个 MSL (maximum segment lifetime) 的 时 间 后 才能 回 到 CLOSED 状 态 ， 因 为 我 们 先 Ctrl-C 终 目 


等 竺 两 















































了 server， 所 以 server 是 主动 关闭 连接 的 一 方 ， 在 TIME_WAIT 期 | 间 仍 然 不 能 再 次 ! 监听 同样 





的 server 端 口 。MSL 在 RFC1122 ,规定 为 两 分 钟 但 是 各 操作 系统 的 实现 不 同 ， cS 般 

































































经 过 半分 钟 后 就 可 以 再 次 启动 server 了 。 至 于 为 人 2 么 要 规定 TIME_WAIT 的 时 间 请 读 老 者 参考 UNP 








2 s 
































开 指 的 是 connfd (127.0.0.1:8000) 没有 完全 断 开 ， 而 我 们 重新 监听 的 






































户 端 通讯 的 一 个 具体 的 IP 地 址 ， 而 listenfd 对 应 的 是 wildcard address. fix nj 
aec 村 的 选项 SO_REUSEADDR 为 1， 表 示人 允许 创建 端 















































Lgs ope = lọ 
: setsockopt ( 








在 server 的 TCP 连 接 没 有 完全 断 开 之 前 不 允许 重新 监听 是 不 合理 的 ， 因 为 ，TCP 连 接 没 有 完全 断 











是 listenfd (0.0.0.0:8000) ， 虽 然 是 占用 同一 个 端口 ， 但 IP 地 址 不 同 ，connfd 对 应 的 是 与 某 个 客 











题 的 方法 是 使 





口号 相同 
日 iP 地址 不 同 的 多 个 socket 描 述 符 。 在 server 代 人 码 的 socket() 和 bind() 调 用 之 间 插 入 如 下 代码 : 


listenfd, SOL SOCKET, SO REUSEADDR, &opt, sizeof(opt)); 























青 参考 UNP 第 7 章 。 


< 一 














有 关 setsockopt 可 以 设置 的 其 它 选项 


2.6. 使 用 select 






































select 是 网 络 程序 中 很 常用 的 一 个 系统 调用 ， 它 可 以 同时 监听 多 个 阻塞 的 文件 描述 符 (例如 多 个 
网 络 连接 ) ， 哪 个 有 数据 到 达 就 处 理 哪 个 ， 这 样 ， 不 需要 fork 和 多 进程 就 可 以 实现 并 发 服务 





















































的 server。 


i /* server.c */ 

: finclude <stdio.h> 

; #include <stdlib.h> 

: #include <string.h> 

i #include <netinet/in.h> 
| include "wrap .h"™ 


i #define MAXLINE 80 
| #define SERV PORT 8000 


: int main(int argc, char **argv) 
P4 
int i, maxi, maxfd, listenfd, connfd, sockfd; 
int nready, client[FD SETSIZE]; 

Salza © DE 

fd_set rset, allset; 

char buf [MAXLINE]; 

char str[INET ADDRSTRLEN]; 

Socklen t cliaddr len; 

struct sockaddr in cliaddr, servaddr; 


listenfd = Socket(AF INET, SOCK STREAM, 0); 


bzero(&servaddr, sizeof(servaddr)); 


servaddr.sin family = AF INET; 
servaddr.sin addr.s addr = htonl(INADDR ANY); 
servaddr.sin port = htons (SERV PORT); 


: Bind(listenfd, (struct sockaddr *)&servaddr, 
: sizeof (servaddr)); 


Listen(listenfd, 20); 


maxfd = listenfd; fro baute tel te = / 
: maxi = -1; /* index into client[] 
‘array */ 
| for (i = 0; i < FD SETSIZE; i++) 
client[i] = -1; /* -1 indicates available entry */ 


FD ZERO(&allset); 
FD SET(listenfd, &allset); 


toe (5 m) x 
rset = allset; /* structure assignment */ 
nready = select (maxfd+1, &rset, NULL, NULL, NULL); 
if (nready « 0) 
perr exit("select error"); 





: if (FD_ISSET(listenfd, &rset)) { /* new client 
‘connection */ 

i cliaddr_len = sizeof(cliaddr) ; 

: connfd = Accept(listenfd, (struct sockaddr 
i *) &cliaddr, &cliaddr_len); 


printf("received from %s at PORT %d\n", 
: inet ntop(AF INET, 
i &cliaddr.sin addr, Ser Salwaore (ende) )) 5 
: ntohs(cliaddr.sin_port)); 


下 
3E. 


i (client[i] « 0) { 





: client[i] = connfd; /* save 
SEE 
break; 
} 

if (i == FD SETSIZE) { 
: fputs("too many clients\n", 
; stderr); 
: exit (1); 

} 

FD_SET(connfd, &allset); /* add new 


| descriptor to set */ 








if (connfd > maxfd) 
maxfd = connfd; /* for select */ 
if (i > maxi) 


maxi = i; /* max index in 
:client[] array */ 
if (--nready == 0) 
continue; /* no more readable 
| descriptors */ 
| } 
ior (a = Us a <= meis at) 4 /* check all 
i clients for data */ 
: if ( (sockfd = client[i]) « 0) 


continue; 

if (FD ISSET(sockfd, &rset)) { 

: if ( (n = Read(sockfd, buf, 
: MAXLINE)) == 0) ( 
: /* connection closed by 
|! client */ 
| Close (sockfd); 

FD CLR(sockfd, &allset); 


client[i] = -1; 
} else { 
aime, JE 
row (3) = Of J < mpg Js) 
puii = 


: toupper (buf [3]) ; 
Write(sockfd, buf, n); 


} 


if (--nready == 0) 
break; /* no more readable 


| descriptors i} 


下 一 页 





1. 预备 知识 3. 基于 UDP 协议 的 网 络 程序 


3. 基于 UDP 协议 的 网 络 程序 
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3. 基于 UDP 协议 的 网 络 程序 
下 图 是 典型 的 UDP 客户 端 /服务 需 通 讯 过 程 (该 图 出 自 [UNPv13el]) 。 
图 37.3. UDP 通讯 流程 
3x Ph RE R3 ZEPHUDPE — 服务 器 端 UDP 层 服务 器 端 应 用 层 
fd = socket() fd = socket() 
分 配 一 个 鼠 慎 掀 术 符 att SE AF 
bind(fd, 服务 器 地 址 端口 ) 
at Ef dae Hh 
目标 地 址 任意 
recvfrom(fd, buf, size, addr) 
sendto(fd, buf, size, addr) a : inp 
服务 器 地 址 端口 addr 发 送 泊 据 请 求 ee a 
a recvfrom(fd, ie bes : recvfrom 返 回 循环 
BIR TEE Pri SiN 
sendto(connfd, buf, size, addr) 
$8 Posh bt add rest RES 
recvfromi& [a] 
close( fd) Sac Faulty 








以 下 是 简单 的 UDP 服务 器 和 客户 端 程序 。 





i /* server.c */ 

i #include <stdio.h> 

i #include <string.h> 

: #include <netinet/in.h> 
i #include "wrap.h" 


i #define MAXLINE 80 
: fdefine SERV PORT 8000 


Paint main (void) 


if 


socklen_t cliaddr_len; 

Gime SOCikiecls 

char buf [MAXLINE]; 

char str[INET ADDRSTRLEN]; 
age aly, INA 


struct sockaddr in servaddr, cliaddr; 


sockfd = Socket(AF INET, SOCK DGRAM, 0); 


bzero(&servaddr, sizeof(servaddr)); 





servaddr.sin family = AF INET; 


servaddr.sin addr.s addr = htonl(INADDR ANY); 


HJ 


servaddr.sin_port = htons(SERV PORT); 


Bind(sockfd, (struct sockaddr *)&servaddr, 


: sizeof (servaddr) ) ; 


printf ("Accepting connections ...\n"); 
while (1) { 
cliaddr len = sizeof (cliaddr) ; 


n = recvfrom(sockfd, buf, MAXLINE, 0, (struct 


‘ sockaddr *)&cliaddr, &cliaddr len); 


if (n == -1) 
perr exit("recvfrom error"); 
printf("received from $s at PORT %d\n", 


: inet ntop(AF INET, &cliaddr.sin addr, str, 
: sizeof (str)), 


ntohs (cliaddr.sin port)); 


for (i = 0; i < n; itt) 
buf[i] = toupper (buf[il); 
n = sendto(sockfd, buf, n, O0, (struct sockaddr 


i *) &cliaddr, sizeof (cliaddr) ); 


if (n == -1) 
perr exit("sendto error"); 


: finclude <stdio.h> 

: #include <string.h> 

: #include <unistd.h> 

| #include <netinet/in.h> 
i #include "wrap.h" 





| #define MAXLINE 80 
| define SERV PORT 8000 


‘int main(int argc, char *argv[]) 


E 


struct sockaddr_in servaddr; 
dine rool ep 

char buf [MAXLINE]; 

char str[INET ADDRSTRLEN]; 
Socklen t servaddr len; 


sockfd = Socket (AF_INET, SOCK DGRAM, 0); 


bzero(&servaddr, sizeof (servaddr) ); 
servaddr.sin_family = AF_INET; 

inet pton(AF INET, "127.0.0.1", &servaddr.sin addr); 
Servaddr.sin port = htons (SERV PORT); 


while (fgets(buf, MAXLINE, stdin) != NULL) { 
n = sendto(sockfd, buf, strlen (buf), 0, (struct 


: sockaddr *)&servaddr, sizeof(servaddr)); 


if (n == -1) 
perr exit("sendto error"); 


n — recvfrom(sockfd, buf, MAXLINE, 0, NULL, 0); 
if (n == -1) 
perr exit("recvfrom error"); 





Write(STDOUT FILENO, buf, n); 
} 


Close (sockfd) ; 
return 0; 














E 





















































于 UDP 不 需要 维护 连接 ， 程 序 逻 辑 简单 了 很 多 ， 但 是 UDP 协议 是 不 可 靠 的 ， 实 际 上 有 很 多 保 
正 通讯 可 靠 性 的 机 制 需要 在 应 用 层 实现 。 
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编译 运行 server ， 在 两 个 终端 里 各 开 一 个 client 与 server 交 互 ， 看 看 server 是 否 具有 并 发 服务 的 能 
力 。 用 Ctrl+C 关 闭 server， 然 后 再 运行 server， 看 此 时 client 还 能 否 和 server 联 系 上 。 和 前 
面 TCP 程 序 的 运行 结果 相 比 较 ， 体 会 无 连接 的 含义 。 








4. UNIX Domain Socket IPC 


lessen 


4. UNIX Domain Socket IPC 








socket API 原 本 是 为 网 络 通讯 设计 的 ， 但 后 来 在 socket 的 框 
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Domain Socket。 虽 然 网 络 socket 也 可 用 于 同一 侣 主机 的 进程 间 通 讯 (通过 loopback 地 

址 127.0.0.1) ， 但 是 UNIX Domain Socket 用 于 IPC 更 有 效率 : 不 需要 经 过 网 络 协议 栈 ， 不 需要 
打包 拆 包 、 计 算 校 验 和 、 维 护 序 号 和 应 答 等 ， 只 是 将 应 用 层 数据 从 一 个 进程 揽 贝 到 另 一 个 进 
程 。 这 是 因为 ，IPC 机 制 本 质 上 是 可 靠 的 通讯 ， 而 网 络 协议 是 为 不 可 靠 的 通讯 设计 的 。UNIX 
Domain Socket 也 提供 面向 流 和 面向 数据 包 两 种 API| 接 口 ， 类 似 于 TCP 和 UDP， (EHAE 
的 UNIX Domain Socket 也 是 可 靠 的 ， 销 妃 既 不 会 丢失 也 不 会 顺序 错乱 。 





























UNIX Domain SocketZé4 1 
已 成 为 使 用 最 广泛 的 IPC 机 4 
Socket 通 讯 的 。 


使 用 UNIX Domain Socket 的 过 程 和 网 络 socket 十 分 机 
个 socket 文 件 描述 符 ，address family 指 定 为 AF_UNI 


[的 ，API 接 






































择 SOCK_DGRAM 或 SOCK_STREAM ，protocol 参 数 仍然 指 


显 的 不 同 在 了 
体 sockaddr_un 表 示 ， 网 络 编程 的 socket 地 址 是 IP 地 址 加 端 








UNIX Domain Socket 与 网 络 socket 编 程 最 明 


























L H 


址 是 
用 bind() 时 该 文 伯 


H 


以 下 和 























系统 
Ner 


TRIR 


一 个 socket 类 型 的 文件 在 文 作 的 路 径 ， 这 
已 存在 ， 则 bind() 回 。 


序 将 UNIX Domain socket 绑 定 到 一 个 地 址 。 


<stdlib.h> 
<stdio.h> 
<stddef.h> 
<sys/socket.h> 
<sys/un.h> 






































: #include 
: #include 
: #include 
: #include 
: #include 


i int main (void) 
Pd 
4 aime scl, Salweyp 

struct sockaddr_un un; 


memset (&un, 0, sizeof(un)); 
un.sun family = AF UNIX; 
strcpy (un.sun path, 
if ((fd = 
perror ("socket error") 
exit (1); 
} ` 
: size 
i strlen(un.sun path); 
i if (bind(fd, (struct sockaddr 
perror("bind error"); 
epxalie (AL) F 


} 


exit (0); 


口语 义 丰富 ， 
央 ， 比 如 X Window 服 务 器 












































相 比 其 它 IPC 机 4 目前 


和 GUI 程序 之 间 就 


出 有 明显 的 优越 性 ， 


是 通过 UNIX Domain 
































目 似 ， 也 要 先 调用 socket() 创 建 一 
X，type 可 以 选 
定 为 0 即 可 。 

b 址 格式 不 同 ， 用 结构 

口号 ， 而 UNIX Domain Socket 的 地 
F 由 bind() 调 用 创建 ， 如 果 调 




















FA 









































“socket <4 





ETO ORmS OC ke eiena) iE 
SOCket(AF UNIX, SOCK STREAM, 


0)) « 0) 


; 


offsetof(struct sockaddr un, sun path) + 


*)&un, size) < 0) 


printf ("UNIX domain socket bound\n") ; 


























注意 程序 











1 的 offsetof 宏 ， 它 在 stddef.h 头 文 伯 












































offsetof(struct sockaddr_un, sun_path) 就 是 取 sockaddr_un 结 构 体 的 sun_path 成 员 在 结构 体 中 
的 仿 移 ， 也 就 是 从 结构 体 的 第 几 个 字 节 开始 是 sun_path 成 员 。 想 一 想 ， 这 个 宏 是 如 何 实现 这 一 
功能 的 ? 





















































RE 

: UNIX domain socket bound 

[8 ls =l roccdochSE 

| srwxrwxr-x 1 user 0 Aug 22 12:43 foo.socket 
S CE 

i bind error: Address already in use 

i$ rm foo.socket 

E o/anoue 

: UNIX domain socket bound 























以 下 是 服务 器 的 listen 模 块 ， 与 网 络 socket 编 程 类 似 ， 在 bind 之 后 要 listen， 表 示 通 过 bind 的 地 址 
(也 就 是 socket 文 件 ) 提供 服务 。 

Deion Me pee 

: #include <sys/socket.h> 


: #include <sys/un.h> 
me *errnosh» 




















i #define QLEN 10 


: /* 
i * Create a server endpoint of a connection. 
Run eo eO NE ORT ES ODE eT Od 
"i 
"EISE Serv listen(const char *name) 
: { 
: int fd, len, err, rval; 
Sita Claus OCKA IOE Ty 


/* create a UNIX domain stream socket */ 

if ((fd = socket(AF UNIX, SOCK STREAM, 0)) < 0) 
return(-1); 

unlink (name); /* in case it already exists */ 


/* fill in socket address structure */ 

memset (&un, 0, sizeof(un)); 

un.sun family = AF UNIX; 

strcpy (un.sun path, name); 
| len = offsetof(struct sockaddr_un, sun_path) + 
: strlen (name); 


/* bind the name to the descriptor */ 
if (bind(fd, (struct sockaddr *)&un, len) < 0) { 
rval = -2; 
goto errout; 
} 
if (listen(fd, QLEN) < 0) { /* tell kernel we're a server 
Bw 


rval = -3; 
goto errout; 
} 
return (fd); 
‘ errout: 
: err — errno; 
close(fd); 
errno = OUI, 


return(rval); 











Leen ee || 





以 下 是 服务 器 的 accept 模 块 ， 通 过 accept 得 到 客户 端 地 址 也 应 该 是 一 个 socket 文 件 ， 如 果 不 





































































































return (rval); 


\ 
是 socket 文 件 就 返回 错误 码 ， 如 果 是 socket 文 件 ， 在 建立 连接 后 这 个 文件 就 没有 用 了 ， 调 
用 unlink 把 它 删 掉 ， 通 过 传 出 参数 uidptr 返 回 客 户 端 程序 的 user id. 
| #include <stddef.h> 
"gunelnde <syvs/statsh- 
i #include <sys/socket.h> 
i #include <sys/un.h> 
: #include <errno.h> 
are serv_accept (int listenfd, uid_t *uidptr) 
B 
| int Gilsucel, exe Grew, Nelle 
time t staletime; 
struct sockaddr un un; 
Sie Ul GHI E Stat statbuf; 
len = sizeof(un); 
: if ((clifd = accept(listenfd, (struct sockaddr *)&un, 
p eleni < 0) 
: return(-1); /* often errno-EINTR, if signal 
icc antt 
obeonm ew ciie nt Si vim Sm cadis adsdt5essm/ 
: len -= offsetof(struct sockaddr un, sun path); /* len of 
i pathname */ 
un.sun_path[len] = 0; /* null terminate */ 
if (stat(un.sun_path, &statbuf) < 0) { 
rval = -2; 
goto errout; 
} 
if (S ISSOCK(statbuf.st mode) == 0) { 
ied = 32 /* not a socket */ 
goto errout; 
} 
if (uidptr != NULL) 
*uidptr = statbuf.st_uid; /* return uid of caller 
Pow 
unlink (un.sun path); /* we're done with pathname 
i now */ 
: return (clifd); 
| errout: 
: err — errno; 
close(clifd); 
: errno = err; 
D 














以 下 是 客户 端的 connect 模 块 ， 与 网 络 socket 编 程 不 同 的 是 ，UNIX Domain Socket 



















































































的 好 处 是 ， 该 文件 名 可 以 包含 客户 端的 pid 以 便服 务 右 区 分 不 同 的 客户 端 。 





: #include <stdio.h> 

: #incluqe <stddef.h> 

: #include <sys/stat.h> 

i #include <sys/socket.h> 
: #include <sys/un.h> 

i Pinclude <errng,. i> 





| #define CLI_PATH "/var/tmp/" fe To ron prd = Ia hara w/ 


es 


* Create a client endpoint and connect to a server. 








FU — FL 





要 显 式 调用 bind 函 数 ， 而 不 依赖 系统 自动 分 配 的 地 址 。 客 户 端 bind 一 个 自己 指定 的 socket 文 件 名 


* Returns fd if all OK, «0 on error. 
ir 
E cli conn(const char *name) 
: { 
i int iol, lem, cue, vals 
struct sockaddr_un un; 


/* create a UNIX domain stream socket */ 
if ((fd = socket(AF UNIX, SOCK STREAM, 0)) < 0) 
return(-1); 





/* fill socket address structure with our address */ 
memset (&un, 0, sizeof(un)); 
un.sun family = AF UNIX; 
Sprintf(un.sun path, "%s%05d", CLI PATH, getpid()); 
: len = offsetof(struct sockaddr un, sun path) + 
i strlen(un.sun path); 


unlink (un.sun path); /* in case it already exists */ 
if (bind(fd, (struct sockaddr *)&un, len) < O) { 
rval = 2; 


goto errout; 


} 


/* fill socket address structure with server's address */ 
memset (fun, 0, sizeof (un)); 
un.sun_family = AF_UNIX; 
Strcpy(un.sun path, name); 
| len = offsetof(struct sockaddr un, sun path) + 
: strlen (name); 
: if (connect(fd, (struct sockaddr *)&un, len) « O) { 
rval = -4; 
goto errout; 
} 


return (fd) ; 


' errout: 

err = errno; 
close (fd); 
errno = err; 
return (rval); 
































自己 动手 时 间 ， 请 利用 以 上 模块 编写 完整 的 客户 端 /服务 器 通讯 的 程序 。 





下 面 是 


E =a 
3. 基于 UDP 协议 的 网 络 程序 5. 练习 : 实现 简单 的 Web 服 务 器 


























5.252]: 实现 简单 的 Web 服 务 需 
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5. 练习 : 实现 简单 的 Web 服 务 角 





























实现 一 个 简单 的 Web 服 务 器 myhttpd。 服 务 器 程序 启动 时 要 读 取 配置 文件 /etc/myhttpd.conf， 其 
' 需 要 指定 服务 器 监听 的 端口 号 和 服务 目录 ， 例 如 : 
























































; Port=80 
: Directory=/var/www 


















































注意 ，1024 以 下 的 端口 号 需要 超级 用 户 才 能 开启 服务 。 如 果 你 的 系统 中 已 经 安装 了 某 种 Web 服 
Fran 〈 例 如 Apache) ， 应 该 为 nyhttpd 选 择 一 个 不 同 的 闯 口 号 。 当 浏览 种 癌 服务 化 请 求 文件 
时 ， 服 务 喜 就 从 服务 目录 〈 例 如 varwww) 中 找 出 这 个 文件 ， 加 上 HTTP 协 议 头 一 起 发 给 浏览 
髓 。 但 是 ， 如 果 浏 览 需 请 求 的 文件 是 可 执行 的 则 称 为 CGI 程序 ， 服 务 器 并 不 是 将 这 个 文件 发 给 济 
哆 器 ， 而 是 在 服务 絮 端 执行 这 个 程序 ， 将 它 的 标准 输出 发 给 浏览 器 ， 服 务 器 不 发 送 完整 

的 HTTP 人 协议 头 ，CGI 程 序 自己 负责 输出 一 部 分 HTTP 协 议 头 。 





























































































































5.1. 基本 HTTP 协 议 











打开 浏览 器 ， 输 入 服务 器 IP ， 例 如 http://192.168.0.3 ， 如 果 端 口号 不 是 80， 例 如 是 8000 Ji 
入 http://192.168.0.3:8000 。 这 时 浏览 磺 疝 服务 锅 发 送 的 HTTP 协 议 头 如 下 : 
| GET / HTTP/1.1 
Host: LOZ, 16S. 0.353 SOOO 
: User-Agent: Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) 
i Gecko/ 20061201 Wiretox/2.0.0.6 (UbunEU—teisty) 
: Accept: 
: text/xml, application/xml, application/xhtml+xml, text/html; q=0.9,text/plain; q=0.8 





: Accept-Language: en-us,en; q=0.5 

: Accept-Encoding: gzip,deflate 

| Recepe —Charect: ISO-8859-1,utf-8;q-0.7,*;q-0.7 
: Keep-Alive: 300 

i Connection: keep-alive 





















































注意 ， 其 中 每 一 行 的 末尾 都 是 回 车 加 换行 〈(C 语 言 的 An") ， 第 一 行 是 GET 请 求 和 协议 版 本 ， 
其 余 几 行 选 项 字段 我 们 不 讨论 ，HTTP 协 议 头 的 最 后 有 一 个 空 行 ， 也 是 回 车 加 换行 。 


我 们 实现 的 Web 服 务 器 只 要 能 正确 解析 第 一 行 就 行 了 ， 这 是 一 个 GET 请 求 ， 请 求 的 是 服务 目录 
的 根 目录 / (在 本 例 中 实际 上 是 Var/www) ，Web 服 务 器 应 该 把 该 目录 下 的 索引 页 (默认 

是 index.html) 发 给 浏览 器 ， 也 就 是 把 varwwwindex.html 发 给 浏览 器 。 假 如 该 文件 的 内 容 如 下 
(HTML 文 件 没 必要 以 An" 换 行 ， 以 An" 换 行 就 可 以 了 ) : 


; «html» 
: <head><title>Test Page</title></head> 
: <body> 
















































































































































































<p>Test OK</p> 
<img src='mypic.jpg'> 


: </body> 
: </html> 





























显示 一 行 字 和 一 幅 图 片 ， 图 片 的 相对 路 径 〈 相 对 当前 的 index.html 文 件 的 路 径 ) 是 mypic.jpg， 也 
就 是 varwww/mypic.jpg， 如 果 用 绝对 路 径 表 示 应 该 是 : 



























































服务 亏 应 按 如 下 格式 应 答 浏览 和 硕 : 


: HTTP/1.1 200 OK 
iComtenb—type., bext ERU 














: «html» 

| «head»«title»Test Page</title></head> 
i <body> 
i <p>Test OK</p> 

<img src='mypic.jpg'> 


; </body> 
E </html> 

















服务 器 应 答 的 HTTP 头 也 是 每 行 末 尾 以 回 车 加 换行 结束 ， 最 后 跟 一 个 空 行 的 回 车 加 换行 。 


HTTP 头 的 第 一 行 是 协议 版 本 和 应 答 码 ，200 表 示 成 功 ， 后 面 的 消息 OK 其 实 可 以 随意 写 ， 浏 览 需 
是 不 关心 的 ， 主 要 是 为 了 调试 时 给 开发 人 员 看 的 。 虽 然 网 络 协议 最 终 是 程序 与 程 请 之 间 的 对 

话 ， 但 是 在 开发 过 程 中 却 是 人 与 程序 之 间 的 对 话 ， 一 个 设计 透明 的 网 络 协 议 可 以 提供 很 多 直观 
的 信息 给 开发 人 员 ， 因 此 ， 很 多 应 用 层 网 络 协议 ， 如 HTTP、FTP、SMTP、POP3 等 都 是 基于 
文本 的 协议 ， 为 的 是 透明 性 (transparency) 。 












































































































































































































































HTTP 头 的 第 二 行 表 示 即 将 发 送 的 文件 的 类 型 〈 称 为 MIME 类 型 ) ， 这 里 是 text/html， 纯 文本 文 
件 是 text/plain， 图 片 则 是 image/jpg、image/png 等 。 









































然后 就 发 送 文件 的 内 容 ， 发 送 完 毕 之 后 主动 关闭 连接 ， 这 样 浏览 器 就 知道 文件 发 送 完 了 。 这 一 
点 比较 特殊 : 通常 网 络 通信 都 是 客户 端 主动 发 起 连接 ， 主 动 发 起 请 求 ， 主 动 关闭 连接 ， 服 务 器 
只 是 被 动 地 处 理 各 种 情况 ， 而 HTTP 协 议 规定 服务 器 主动 关闭 连接 (有 些 Web 服 务 器 可 以 配置 
成 Keep-Alive 的 ， 我 们 不 讨论 这 种 情况 ) 。 


浏览 右 收 到 index.html 之 后 ， 发 现 其 中 有 一 个 图 片 文件 ， 就 会 再 发 一 个 GET 请 求 (HTTP 协 议 头 
其 余部 分 略 ) : 
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| GET /mypic.jpg HTTP/1.1 




















一 个 较 大 的 网 页 LC Dill vas A BEE FERN AY ITA e ZEE Pa, DAI 
此 ，" 服 务 器 即使 对 同一 个 客户 端 也 需要 提供 ef 行 服务 的 能 力 "。 服务 器 收 到 这 个 请 求 应 该 把 图 
片 发 过 去 然后 关闭 连接 : 






























































; HTTP/1.1 200 OK 
i Content-Type: image/jpg 
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(这 里 是 mypic. jpg 的 二 进 制 数据 ) 




















这 时 浏览 器 就 应 该 显示 出 完整 的 网 页 了 。 


如 有 果 浏 览 絮 请 求 的 文件 在 服务 器 上 找 不 到 ， 要 应 答 一 个 404 错 误 页 面 ， 例 如 : 





















































; HTTP/1.1 404 Not Found 
: Content-Type: text/html 


| <html><body>request file not found</body></html> 





5.2. 执行 CGI 程序 






















































































如 宁 浏 览 磺 请 求 的 是 一 个 可 执行 文件 (不管 是 什么 样 的 可 执行 文件 ， 即 使 是 shell 脚 本 也 一 
FÉ) ， 那 么 服务 器 并 不 把 这 个 文件 本 身 发 给 浏览 器 ， 而 是 把 它 的 执行 结果 标准 输出 发 给 浏览 
器 。 例 如 一 个 shell 脚 本 varwww/myscript.sh (注意 一 定 要 加 可 执行 权限 ) : 

ii ai ii 

: Cho content TM eee 

; echo 


"echo "<html><body>Hello world!</body></html>" 








这 样 浏览 右 收 到 的 是 : 


| HTTP/1.1 200 OK 
Contento Type eee/ Em 





| <html><body>Hello world!«/body»«/html» 








NS 


总 结 一 下 服务 如 的 处 理 步 又 : 


1. 解析 浏览 器 的 请 求 ， 在 服务 目录 中 查找 相应 的 文件 ， 如 果 找 不 到 该 文件 就 返回 404 错 误 页 
面 


2. 如 采 找 到 了 浏览 带 请 求 的 文件 ， 用 stat(2) 检 查 它 是 否 可 执行 
3. 如 采 该 文件 可 执行 : 


ae 
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a. 发 送 HTTP/1.1 200 OK 给 

















b. fork(2) ， 然 后 用 dup2(2) 重 和 定 





可 


子 进程 的 标准 输出 到 客户 端 socket 





























c. 在 子 进程 中 exec(3) 该 CGI 程序 
d. 关闭 连接 

4. 如 采 该 文件 不 可 执行 : 
a. 发 送 HTTP/1.1 200 OK 给 客户 端 
b. 如 果 是 一 个 图 片 文件 ， 根 据 图 片 的 扩展 名 发 送 相应 的 Content-Type 给 客户 端 
c. 如 果 不 是 图 片 文件 ， 这 里 我 们 简化 处 型 
d. 简单 的 HTTP 协 议 头 有 这 两 行 就 足够 了 ， 再 发 一 个 空 行 表示 结束 
e. 读 取 文件 的 内 容 发 送 到 客户 端 
t. 关闭 连接 
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都 当 作 Content-Type: text/html 
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1. ASCI 


ASCII 码 的 取 值 范围 是 0~127， 可 以 用 7 个 bit 表 示 。C 语 言 中 char 型 变量 的 大 小 规定 为 一 字 节 ， 如 
果 存 放 ASCII 码 则 只 用 到 低 7 位 ， 高 位 为 0。 以 下 是 ASCII 码 表 : 

















图 A.1. ASCII 码 表 





Dec Hx Oct Char Dec Hx Oct Oct Chr| Dec Hx Oct Chr 
0 0 000 NUL (null) 96 60 140 
l 1 001 $0H (start of heading) 97 61 141 
2 2 002 STX (start of text) 98 62 142 
3 3 003 ETX (end of text) # 99 63 143 
4 4 004 EOT fend of transmission) $ 100 64 144 
5 5 005 ENQ (enquiry) % 101 65 145 
6 6 006 ACK (acknowledge) & 102 66 146 
7 7 007 BEL (bell) : 103 67 147 
8 8 010 B3 {backspace} i 104 68 150 
9 9 011 TAB (horizontal tab) ) 105 69 151 

10 AOl2 LF (NL line feed, new line) * 106 64 152 

ll B 013 VT (vertical tab) * 107 6B 153 

l2 C 014 FF (NP form feed, new page) z 106 6C 154 

l3 D 015 CR (carriage return) = 109 6D 155 

14 E 016 50 {shift out) 110 6E 156 

15 F 017 3I {shift in) lll 6F 157 


l6 10 020 DLE (data link escape) 

17 ll 021 DCl (device control 1) 

16 12 022 DC2 (device control 2) 

19 13 023 DC3 (device control 3) 

20 14 024 DC4 (device control 4) 

zl 15 025 NAK (negative acknowledge) 
22 16 026 SYN (synchronous idle) 

23 17 027 ETB (end of trans. block) 
24 18 030 CAN (cancel) 

25 19 031 EM (end of medium) 

26 14 032 SUB (substitute) 

27 1B 033 ESC (escape) 

26 lC 034 FS {file separator) 

29 1D 035 GS {group separator) 

30 lE 036 RS {record separator) 

31 lF 037 US (unit separator) 


112 70 160 
113 71 161 
114 72 162 
115 73 163 
116 74 164 
117 75 165 
118 76 166 
119 77 167 
120 78 170 
121 79 171 
122 7À 172 
123 7B 173 
124 7C 174 
125 7D 175 
126 7E 176 
127 7F 177 DEL 
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绝 大 多 数 计算 机 的 一 个 字 节 是 8 位 ， 取 值 范围 是 0~255， 而 ASCII 码 并 没有 规定 编号 

为 128~255 的 字符 ， 为 了 能 表示 更 多 字符 ， 各 厂商 制定 了 很 多 种 ASCII 码 的 扩展 规范 。 注 意 ， 虽 
然 通常 把 这 些 规范 称 为 扩展 ASCII 码 (Extended ASCII) ， 但 其 实 它们 并 不 属于 ASCII 码 标准 。 
例如 以 下 这 种 扩展 ASCII 码 由 IBM 制 定 ， 在 字符 终端 下 被 广泛 采用 ， 其 中 包含 了 很 多 表格 边线 字 
符 用 来 画 界面 。 




























































































图 A.2.1BM 的 扩展 ASCII 码 表 





122 C 14 É 161 i 177 L 29 - 25 B M + 
129 ü 14 æ 162 ó 178 ER 194 > 210 4, 26 Tr 242 > 
130 é 14 E 16 ú 179 | 15 - 21 L 22 x 24 < 
131 à 14 ô 164 fA 180 | 196 — 212 & 228 5 24 f 
132 à 14 à 16 N 181 4 17 + 213 p 29 o 24 J 

133 à 14 ò 16 # 182 | 198 F 214 gy, 23 p 246 + 
134. à 150 à 16 ° 183 a 199 | 215 d 231 « W c 
135 ç 1531 à 168 4 184 4 20 E 216 232 o6 24 

136 ê 152 160 _ 185 4 21 p 217 4 23 @ 249 

133 à 153 Ö 170 ~ 186 | 202 £ 218 p 234 Q 25 

1383 à 154 Ü it % 187 q 203 219 E 235 5 251 ¥ 
139 i 156 £ 172 4. 188 4 204 Ẹ 20 gm 236 wm 252 _ 
140 i iA (1735 189 2 205 = 221 | 297 4 253 2 

141 i 158 14 « 1090 4 26 à 22 | 23 ə 234 E 
142 A 159 f 175 » 191 4 207 + 223 " 239 ^ 25 

143 A 160 á 17 X 12 L X8 1 24 œ 24 = 


























在 图 形 界面 中 最 广泛 使 用 的 扩展 ASCII 码 是 ISO-8859-1， 也 称 为 Latin-1， 其 中 包含 欧洲 各 国语 
言 中 最 徊 用 的 非 英文 字母 ， 但 毕 况 只 有 128 个 字符 ， 某 些 语 言 中 的 茶 些 字母 没有 包含 。 如 下 表 所 
示 。 






































图 A.3. ISO-8859-1 
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编号 为 128~159 的 是 一 些 控制 字符 ， 在 上 表 中 没有 列 出 。 
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附录 A. 字符 编码 





2. Unicode 和 UTF-8 


为 了 统一 全 世界 各 国语 言 文字 和 专业 领域 符号 〈 例 如 数学 符号 、 乐 谱 符 号 ) 的 编码 ，ISO 制 定 
了 ISO 10646 标 准 ， 也 称 为 UCS (Universal Character Set) 。UCS 编 码 的 长 度 是 31 位 ， 可 以 表 
示 231 个 字符 。 如 果 两 个 字符 编码 的 高 位 相同 ， 只 有 低 16 位 不 同 ， 则 它们 属于 一 个 平面 
(Plane) ， 所 以 一 个 平面 由 216 个 字符 组 成 。 目 前 常用 的 大 部 分 字符 都 位 于 第 一 个 平面 (编码 
范围 是 U-00000000~U-0000FFFD) ， 称 为 BMP (Basic Multilingual Plane) 或 Plane 0， 为 了 
向 后 兼容 ， 其 中 编号 为 0~256 的 字符 和 Latin-1 相 同 。UCS 编 码 通常 用 U-xxxxXxxx 这 种 形式 表 
示 ， 而 BMP 的 编码 通常 用 U+Xxxxx 这 种 形式 表示 ， 其 中 x 是 十 六 进 制 数字 。 在 ISO 制定 UCS 的 同 
时 ， 另 一 个 由 厂商 联合 组 织 也 在 着 手 制定 这 样 的 编码 ， 称 为 Unicode ， 后 来 两 家 联手 制定 统一 的 
编码 ， 但 各 自发 布 各 自 的 标准 文档 ， 所 以 UCS 编 码 和 Unicode 码 是 相同 的 。 


有 了 字符 编码 ， 另 一 个 问题 就 是 这 样 的 编码 在 计算 机 中 怎么 表示 。 现 在 已 经 不 可 能 用 一 个 字 节 
表示 一 个 字符 了 ， 最 直接 的 想法 就 是 用 四 个 字 节 表示 一 个 字符 ， 这 种 表示 方法 称 为 UCS- 

4 或 UTF-32，UTF 是 Unicode Transformation Format 的 缩写 。 一 方面 这 样 比较 浪费 存储 空间 , 

由 于 常用 字符 都 集中 在 BMP ， 高 位 的 两 个 字 节 通常 是 0， 如 果 只 用 ASCII 码 或 Latin-1， 高 位 的 三 
个 字 都 是 0。 另 一 种 比较 布 省 存储 空间 的 办 法 是 用 两 个 字 节 表示 一 个 字符 ， 称 为 UCS- 
2 或 UTF-16， 这 样 只 能 表示 BMP 中 的 字符 ， 但 BMP 中 有 一 些 扩展 字符 ， 可 以 用 两 个 这 样 的 扩展 
字符 表示 其 它 平面 的 字符 ， 称 为 Surrogate Pair。 无 论 是 UTF-32 还 是 UTF-16 都 有 一 个 更 严重 的 
问题 是 和 C 语 言 不 兼容 ， 在 C 语 言 10 T WEB, Jee PRR strleny strcpy 等 等 都 依赖 
于 这 一 点 ， 如 果 字 符 串 用 UTF-32 存 储 ， 其 中 有 很 多 0 字 刷 并 不 表示 字符 串 结尾 ， 这 就 乱 套 了 。 


UNIX 之 父 Ken Thompson 提 出 的 UTF-8 编 码 很 好 地 解决 了 这 些 问题 ， 现 在 得 到 广泛 应 用 。UTF- 
8 具有 以 下 性 质 : 


。 编码 为 U+0000~U+007F 的 字符 只 占 一 个 字 市 ， 就 是 0x00~0x7F， 和 ASCII 码 兼容 。 















































































































































































































































































































































































































































































































































































































































© 编码 大 于 U+007F 的 字符 用 2~6 个 字 节 表示 ， 每 个 字 节 的 最 高 位 都 是 1， 而 ASCII 码 的 最 高 
立 都 是 0， 因 此 非 ASCII 码 字符 的 表示 中 不 会 出 现 ASCII 码 字 节 (也 就 不 会 出 现 0 字 节 ) 。 


。 用 于 表示 非 ASCII 码 字符 的 多 字 市 序列 中 ， 第 一 个 字 节 的 取 值 范围 是 0xXC0~0xFD， 根 据 它 
可 以 判断 后 面 有 多 少 个 字 市 也 属于 当前 字符 的 编码 。 后 面 每 个 字 节 的 取 值 范围 都 
是 0x80~0xBF， 见 下 面 的 详细 说 明 。 
































































































































UCS 定 义 的 所 有 231 个 字符 都 可 以 用 UTF-8 编 码 表示 出 来 。 


。 UTF-8 编 码 最 长 6 个 字 节 ，BMP 字 符 的 UTF-8 编 码 最 长 三 个 字 节 。 














© 0xFE 和 0xFF 这 两 个 字 节 在 UTF-8 编 码 中 不 会 出 现 。 
具体 来 说 ，UTF-8 编 码 有 以 下 几 种 格式 : 


U-00000000 — U-0000007F: Oxxxxxxx 

U-00000080 — U-000007FF: 110xxxxx 10xxxxxx 

U-00000800 — U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx 

U-00010000 — U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 
U-00200000 - U-O03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10XXXXXX 























U-04000000 — U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 















































第 一 个 字 节 要 么 最 高 位 是 0 (ASCII 字 节 ) ,要么 最 高 两 位 都 是 1， 最 高 位 之 后 1 的 个 数 决 定 后 面 
有 多 少 个 字 节 也 属于 当前 字符 编码 ， 例 如 111110xx， 最 高 位 之 后 还 有 四 个 1， 表 示 后 面 有 四 个 
字 节 也 属于 当前 字符 的 编码 。 后 面 每 个 字 节 的 最 高 两 位 都 是 10， 可 以 和 第 一 个 字 节 区 分 开 。 这 
样 的 设计 有 利于 误 码 同步 ， 例 如 在 网 络 传输 过 程 中 丢失 了 几 个 字 节 ,很 容易 判断 当前 字符 是 不 
完整 的 ， 也 很 容易 找到 下 一 个 字符 从 哪里 开始 ， 结 果 顶 多 丢掉 一 两 个 字符 ， 而 不 会 导致 后 面 的 
编码 解释 全 部 混乱 了 。 上 面 的 格式 中 标 为 x 的 位 就 是 UCS 编 码 ， 最 后 一 种 6 字 节 的 格式 中 x 位 
有 31 个 ， 可 以 表示 31 位 的 UCS 编 码 ，UTF-8 就 像 一 列 火 车 ， 第 一 个 字 布 是 车 头 ， 后 面 每 个 字 布 
是 车 硼 ， 其 中 承载 的 货物 是 UCS 编 码 。UTF-8 规 定 承载 的 UCS 编 码 以 大 端 表示 ， 也 就 是 说 第 一 
个 字 节 中 的 x 是 UCS 编 码 的 高 位 ， 后 面 字 节 中 的 x 是 UCS 编 码 的 低位 。 








































































































































































































































































































例如 U+00A9 (@ 字 符 ) 的 二 进 制 是 10101001， 编 码 成 UTF-8 是 11000010 10101001 (0xC2 
OxA9) ， 但 不 能 编码 成 11100000 10000010 10101001，UTF-8 规 定 每 个 字符 只 能 用 尽 可 能 少 
的 字 节 来 编码 。 
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3. 在 Linux C 编 程 中 使 用 Unicode 和 UTF-8 


目前 各 种 Linux 发 行 版 都 支持 UTF-8 编 码 ， 当 前 系统 的 语言 和 字符 编码 设置 保存 在 一 些 环境 变量 
可 以 通过 1ocale 命 令 查 看 : 





















































: LANG=en_US.UTF-8 

: LC_CTYPE="en US.UTF-8" 

: LC_NUMERIC="en_US.UTF-8" 

i LC_TIME="en US.UTF-8" 

+ he (COA em Oe DIE" 

! LC. MONETARY-"en, US.UTF-8" 

: LC. MESSAGES-"en US.UTF-8" 

i LC, PAPER-"en, US.UTF-8" 

: LC. NAME-"en, US .UTF- 8" 

' LC_ADDRESS="en US.UTF-8" 

: LC_TELEPHONE="en_US.UTF-8" 

: LC_MEASUREMENT="en_US.UTF-8" 
: LC. IDENTIFICATION-"en US.UTF-8" 





PG = 





















































TÉ HDUFdVBLETBMP'P, ATLA ANSE OT ET. DIS — T CET: 


: #include <stdio.h> 


ine main (void) 


E 


print’ ("eq \n"); 
return 0; 











源 文件 是 以 UTF-8 编 码 存储 的 : 


(6 od -tc nihao.c 


: 0000000 # 工 n © 1 u d e « S iE d i © 
| 0000020 h 2 \in Wm i n t m a i n ( v © 
! 0000040 d ) \n { WM \t p r i n t f ( "344 
| 0000060 240 BAS 245 275 \ n " ) a Ww We r e t 

| 0000100 n © p EE ES 

; 0000107 



































其 中 八进制 的 344 375 240 (十 六 进 制 e4 ba ao) 就 是 “你 ”的 UTF-8 编 码 ， 八 进 制 的 345 245 
275 (十 六 进 制 es as ba) 就 是 "好 "。 把 它 编 译 成 目标 文件 ，" 你 好 \n" 这 个 字符 串 就 成 了 这 样 一 且 
FT: e4 bd a0 e5 a5 bd 0a 00， 汉 字 在 其 中 仍然 是 UTF-8 编 码 的 ， 一 个 充 字 占 3 个 字 节 ， 这 
种 字符 在 C 语 言 中 称 为 多 字 节 字符 (Multibyte Character) 。 运 行 这 个 程序 相当 于 把 这 一 串 字 
节 write 到 当前 终端 的 设备 文件 。 如 果 当 前 终端 的 驱动 程序 能 够 识别 UTF-8 编 码 就 能 打印 出 汉 
字 ， 如 果 当 前 终端 的 驱动 程序 不 能 识别 UTF-8 编 码 〈 比 如 一 般 的 字符 终端 ) 就 打印 不 出 汉字 。 
也 就 是 说 ， 像 这 种 程序 ， 识 别 汉 字 的 工作 既 不 是 由 C 编 译 右 做 的 也 不 是 由 1ipc 做 的 ，C 编 译 磊 原 
封 不 动 地 把 源 文件 中 的 UTF-8 编 码 复 制 到 目标 文件 中 ，1ipc 只 是 当 作 以 0 结尾 的 字符 串 原封 不 动 
地 write 给 内 核 ， 识 别 汉 字 的 工作 是 由 终端 的 驱动 程序 做 的 。 
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但 是 仅 有 这 种 程度 的 汉字 文 持 是 不 够 的 ， 有 时 候 我 们 需要 在 C 程 序 中 操作 字符 串 里 的 字符 ， 比 如 
SRA EB Rte I 有 几 个 汉字 或 字符 ， 用 strlen 就 不 灵 了 ， 因为 strlen 只 看 结尾 的 0 字 节 而 不 
管 字符 串 里 存 的 是 什么 ， 求 出 来 的 是 字 节 数 7。 为 了 在 程序 中 操作 Unicode 字 符 ，C 语 言 定义 了 
宽 字 符 (Wide Character) 类 型 vchar 上 和 一 些 库 函 数 。 在 字符 常量 或 字符 串 字 面值 前 面 加 一 
个 L 就 表示 宽 字 符 常 量 或 宽 字 符 串 ， 例 如 定义 wchar_t c = 工 ' 你 '; ， 变 量 c 的 值 就 是 议 

字 “ 你 "的 31 位 UCS 编 码 ， fu" 尔 好 \n" 就 相当 于 {L' 你 '， L'Íf', L'\n', 0), wcslen 国 数 就 可 以 取 
宽 字 符 串 中 的 字符 个 数 。 看 下 面 的 程序 : 































































































































































































: #include <stdio.h> 
; #include <locale.h> 


| int main(void) 


El 

1 if (!setlocale(LC CTYPE, "")) { 

| fprintf(stderr, "Can't set the specified locale! " 
| "Check LANG, LC CTYPE, LC_ALL.\n"); 

: return 1; 

} 

printf("$1s", L'R \n"); 

return 0; 

3 



































宽 字 符 串 ri" 你 好 \n" 在 源 代 码 中 当然 还 是 存 成 UTF-8 编 码 的 ， 但 编译 器 会 把 它 变 成 4 个 UCS 编 
人 码 ox00004f60 0x0000597d 0x0000000a 0x00000000 保 存在 目标 文件 中 ， 按 小 端 存 储 就 是 6o 4f 
00 00 7d 59 00 00 Oa 00 00 00 00 00 oo 00， 用 oa 命令 查看 目标 文件 应 该 能 找到 这 些 字 节 。 



























































: $ gcc hihao.c 
wood —t xl A ONE 





















































printf 的 $1s 转 换 说 明 表示 把 后 面 的 参数 按 宽 字符 串 解释 ， 不 是 见 到 0 字 市 就 结束 ， 而 是 见 
到 UCS 编 码 为 0 的 字符 才 结 束 ， 但 是 要 write 到 终端 仍然 需要 以 多 字 市 编码 输出 ， 这 样 终端 驱动 
但 序 才 能 识别 ， 所 以 printf 在 内 部 把 宽 字 符 吕 转换 成 多 季节 字符 串 再 write 出 去 。 事 实 上 ，C 标 
准 并 没有 规定 多 字 市 字符 必须 以 UTF-8 编 码 ， 也 可 以 使 用 其 它 的 多 字 市 编码 ， 在 运行 时 根据 环 
境 变 量 确定 当前 系统 的 编码 ， 所 以 在 程序 开头 需要 调用 setlocale 获 取 当 前 系统 的 编码 设置 ， 如 
果 当 前 系统 是 UTF-8 的 ，printf 就 把 UCS 编 码 转 换 成 UTF-8 编 码 的 多 字 广 字符 串 再 write 出 去 。 
般 来 说 ， 程 序 在 做 内 部 计算 时 通常 以 宽 字 符 编 码 ， 如 果 要 存盘 或 者 输出 给 别 的 程序 ， 或 者 
过 网 络 发 给 别 的 程序 ， 则 采用 多 字 市 编码 。 


关于 Unicode 和 UTF-8 本 市 只 介绍 了 最 基本 的 概念 ， 部 分 内 容 出 自 [Unicode FAQ], 读者 可 进 一 
步 参 考 这 篇 文章 。 
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编译 生成 目标 文件 (Relocatable) ， 详 见 














-Dmacro([-defn] 











定义 一 个 宏 ， 详 见 第 3 节 “条 件 预 处 理 指示 "。 










































































































































































只 做 预 处 理 而 不 编译 ，cpp 命 令 也 可 以 达到 同样 的 效果 ， 详 见 第 2.1 5 “PR est Ze ce 
-g 
PEERY HERSE PE PIRAM S, SRA GUE ABUS US Ad < PLUE 
在 sab 调 试 和 objaump 反 汇编 时 要 用 到 这 些 信 息 ， 详 见 第 用 
-1dir 
dir 是 头 文件 所 在 的 目录 ， 详 见 第 2.2 F “ 头 文件 "。 
-Ldir 
dir 是 库 文件 所 在 的 目录 ， 详 见 第 3 节 "静态 库 ”。 
-M 和 -MM 
输出 ".o 文 件 : .< 文件 .文件 "这 种 形式 的 Makefile 规 则 ，-m 的 输出 不 包括 系统 头 文件 ， 详 
见 第 4 节 “ 目 动 处 理 头 》 依赖 关系 ”。 














-o outfile 


outfile 输 出 文件 的 文件 名 ， 详 见 多 














=O% 











各 种 编译 优化 选项 ， 详 见 第 6 节 wolatile 限 定 符 ”。 
-print-search-dirs 


打印 库 文 件 的 默认 搜索 路 径 ， 详 见 多 

















编译 生成 汇编 代码 ， 详 见 

















打印 详细 的 编译 链接 过 程 ， 六 
-Wall 


打印 所 有 的 警告 信息 ， 详 见 第 4 节 “ 第 一 个 程序 ”。 












































-Wl,options 


options 古 传递 给 链接 器 的 选项 ， 详 见 第 
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从 号 


5, Exclamation Mark, 布尔 代数 

"引号 ，Double Quote, 继续 Hello World 

#!, Shebang, 执行 脚本 

#5, Pound Sign, Number Sign or Hash Sign, 数学 函数 
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% 5, Percent Sign, 2$ 5t 
&, Ampersand, 布尔 代数 
'3|-r, Single Quote, Apostrophe, 继续 Hello World 
nc Parenthesis, 表达 式 

, Asterisk, 4 X2 Hello World 
号 ， Period, 复合 数据 类 型 结 
IRZ, Slash, 继续 Hello World 
1's Complement, 整数 的 加 减 运 偶 
1-bit Full Adder, 2 i 
1GL, 1st Generation Programming Language, 
2's Complement, HER jae 
2GL, 2nd Generation Programming Language, 
3GL, 3rd Generation Programming Language, 
4GL, 4th Generation Programming Language, 
5GL, 5th Generation Programming Language, 
9's Complement, 整数 的 加 减 运 第 
:号 ，Semicolon, 第 一 个 程序 
<> 括 号 ，Angel Bracket, 数学 函数 
?号 ，Question Mark, 继续 Hello World 
(HGS, Bracket, 数组 的 基本 操作 
\ k, Backslash, 继续 Hello World 
_ 下 划 线 ，Underscore, 变量 
人 号，Brace or Curly Brace, 第 一 个 程序 
|Z&, Pipe Sign, 布尔 代数 
O-notation, 算法 的 时 间 复 杂 度 分 析 
分 页 符 ，Form Feed, 继续 Hello World 
响 铃 ，Alert，Bell, 继续 Hello World 
回 车 ，Carriage Return, 继续 Hello World 
EH 上 | 表 符 ，Vertical Tab, 继续 Hello World 
换行 符 ， Line Feed, 继续 Hello World 
水 平 制 表 符 ，Horizontal Tab, 继续 Hello World 
退 格 ，Backspace, 继续 Hello World 
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ABI, Application Binary Interface, 函数 调用 
Abstraction Layer, 数据 抽象 











Accumulator, while 语 句 
Adapt, 数据 类 型 标志 
Address, PEDE 
Address Operator, ta #1 Hi 
Address Space, 内 存 与 地 址 
Addressing Mode, 寻 址 方式 
Algorithm, 算法 的 概念 
Alignment, 结构 体 和 联合 体 
Allocated Storage Duration, 变量 的 存储 

Ambiguity, Jk, 且 然 语言 和 形式 语言 

Amortize, Memory Hierarchy 

Anchor, 引言 

ANSI, American National Standards Institute, 继续 Hello World 
Append, fopen/fclose 
Architecture ， 体 系 结构 , 程 
Argument, 实 参 ， 一 一 一 A 
Arithmetic Type, 复 类 型 
Array, 数组 的 基 a 

ASCII, American Standard Code for Information Interchange ， 美 国信 息 交 换 标准 码 , 字符 类 型 
与 字符 编码 

Assembler, 最 简单 的 汇编 程序 

Assembler Directive, 最 简单 的 汇编 程序 


(参见 Pseudo-operation) 

































































































































































Assembler, i| Za, [E 
Assembly Language, 汇编 语言 FÉ, 
Assertion, 折 半 查找 
Assignment, WME, 赋值 
Associativity ， 结 合 性 , 表达 式 
Asynchronous, MMU, 信号 的 基本 概念 
Automatic Storage Duration, 变量 的 存储 
Average Case, fi 司 复杂 度 分 
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Backgroud, wait#llwaitpid "KZ 

Backward Compatibility, 继续 Hello World 
Base Case, 递归 
Base Pointer Addressing Mode, 寻 址 方式 

Basic Multilingual Plane, Unicode 和 UTF-8 
Batch, Shell 的 历史 

Best Practice, 变量 

BFS, Breadth First Search, 队列 与 广度 优先 搜索 
Biased Exponent, i$ HŽ 

Big Endian, 目标 文件 
Big-O notation, 5 
Binary, 为 什么 计算 机 用 二 进 制 计 奖 
Binary File, 文件 的 其 本 概念 

Binary Operator ， 双 目 运 算 符 , 布尔 代数 
Binary Search, 折 半 查找 

Binary Tree, 二 义 树 的 基 
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Bitwise AND, mE. Seal 

Bitwise NOT, 按 位 与 、 或 、 异 或 laf 
Bitwise OR, #4 或 、 TJ 

Bitwise Shift, BREN 

Bitwise XOR, 按 位 与 、 或 、 异 或 、 la 
Bit， 位 , AAE — tgp 


Blank, fé, 第 一 个 程 UT 
Block, read/write, 总 体 存 储 布局 
Block Bitmap, 4: vicc tot 局 
Block Group, à SAL VEAN iN E 
Block Scope, 变量 化 
Boilerplate, 第 一 个 程序 

Boolean Algebra ， 布 尔 代数 , 布尔 代数 
Boot Block, 总 体 存储 布局 

Branch, ifi&&] 
Break, 虚拟 内 存 管理 
Breakpoint, WLA 
BST, Binary Search Tree, 挂 序 二 又 树 
Buffer, strcpy 与 strncpy 


Buffer Overflow, strcpy 与 strncpy 
Bug, 程序 的 调试 


Byte, 赋值 , 整 型 
Byte Order, 目标 文件 
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C89, 继续 Hello World 


(参见 C90) 
C90, 继续 Hello World 
(参见 C89) 


C99, 继续 Hello World 

Cache, Memory Hierarchy 
Cache Line, Memory Hierarchy 
Call by Value, JÉZfI 3:2 
Callback Function, 
Callee, 折 半 碍 找 

Caller, HŽ E} 

Calling Convention, KO H 
CamelCase, Es 
Carry, 2 itg 
Cast mem) Jt ril 类 型 转换 
Catch, 信号 的 基本 概念 
Ceiling, 表达 式 

Character Class, 引言 
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Character Constant, ^ uk, rg 
Character Encoding , 字符 编码 , 字符 类 型 与 字符 编码 
Child Process, 引言 

Circular Linked List, 
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Circular Queue, IY 





Class Invariant, 堆栈 














Clause, if/else 语 句 
Code Path, return 语 何 
Coding Style, ， 代 码 风 格 , 继续 Hello World 























Coercion, 强制 类 
Collision, 哈 希 表 


Column-major, 
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Comma Operator, ii 15 $$ 4T 


Comment, YER, 


Compiler, Aiea, Ee x 
Compile, ， 编 译 , fé 
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Composition, 214, T 


Compound Assignment Operator, 复合 E 
Compound Literal, 复合 数据 类 型 一 一 结 


Compound Type， 
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Condition Variable, EE E T 
Conditional Operator, 条 件 运 算 符 


a= A ES. 


Constant, ^t, 
Context, EFX 
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, 且 然 语言 和 形式 语言 




















Contract, Zr: rd 

Control Flow, ifi] 

Controlling Expression, ifi#4] 
Controlling Terminal, 终端 的 基本 概念 


Conversion Specification， 当量 
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Core Dump, 通过 终 ， 
CPU, Central Processing Unit， 中 央 处 理 


























(参见 Processor ， 处 理 器 ) 











Current Working Directory, fopen/fclose, 引言 
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Daemon, 守护 进程 





Dangling-else, if/elsei&&] 
Data Abstraction, 复合 数据 类 型 结构 体 
Data Block, 总 体 存储 看 E 


Data Structure, % 


Data-driven B re 2 
DbC, Design by Contract, Z/r- f 
































Dead Code, returni& & i 


Debug, ， 调 试 , 程 








Decimal， 十 进 制 ， 


Declaration, 变量 
Declarative， 



































Decrement Operator for 语 各 | 


Default Argument Promotion, Integer Promotion 


Definition, 变量 


Delimiter, 继续 Hello World, 分 割 字 符 串 








dentry cache， 内 核 数据 结构 
Dequeue, 队列 与 广度 优先 搜索 





么 计算 机 用 二 进 制 计 交 























SET 
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fi 
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Dereference, 指针 的 基本 操 
Device, 设备 
Device Driver, 设备 
DFS, Depth First Search, 深度 优先 搜索 
Direct Addressing Mode, 寻 址 方式 
Disassemble, Hs t 
Divide-and-Conquer, 归并 排序 

DRAM, Dynamic RAM, Memory Hierarchy 





























Element, 数组 的 基本 操作 

Encapsulate ， 封 装 , ifelse 语 各 

Encapsulation, extern 和 static 关 键 字 , fopen/fclose 
Enqueue， 从 到 与 | E 

Enumeration, 数据 类 型 标志 

Epoch, 数组 应 用 实例 .直方 图 ， 本 章 综 合 练习 
Equality Operator, jf 语句 

Escape Sequence ， 转 义 序列 , 继续 Hello World 
Exception, MMU 
Executable, ELF i 
Exit Status, 最 1 1 
Explicit Conversion, 
Exponent, i$ Zi 
Export, extern fllstatic x ££ 
Expression ， 表 达 式 , 表达 式 
Extended ASCII, ASCIIf4 
External Linkage, 变量 比 
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Factorial, i Ij 

False, ifi] 

Fetch, 计算 机 体系 结构 基础 





FIFO, First In First Out, 队列 与 广度 优先 搜索 
File Descriptor, C 标 准 |/O 库 函数 与 Unbuffered I/O rk 
File Scope, 变量 的 存储 布局 

File Status Flag, fcntl 

Filesystem Hierarchy Standard, 编译 、 链 接 、 运 行 
Flip-flop, Memory Hierarchy 

Floating Point， 浮 点 , 常量 

Floor, 表达 式 

Flush,C 标 准 库 的 VO 缓 种 区 

Foreground, wait#llwaitpid "KZ 

Formal Language ， 形 式 语言 , 自然 语言 和 形式 语言 
Format String， 格 式 化 字符 串 , 当量 

Function Call， 函 数 调用 , 数学 函数 

Function Designator, ZE PRN 

Function Prototype ‘Scope, < apu 

Function Scope, 变星 的 存储 
Function Type, 数学 函数 










































































Function-like Macro, PK Zr E Y 
Functional Programming, while 语 人 句 
Function, Pea, Zr^* eK Zi 
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Gate, 2 
GCD, Greatest Common Divisor， 最 大 公约 数 , 习题 
GDT, Group Descriptor Table, 总 体 存储 布局 
General-purpose Register, CPU 

Generalize ， 泛 化 ， CE a 

Generics Algorithm, 









































Global ae Ü 变量 与 4 ti 
Globbing, 文件 名 代 Globbing) : * ? 
Grammar, i&i5, 和 且 然 语言 和 形式 语言 
Greedy, sed 

Group Descriptor, 总 ret A J) 
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Half Word, CPU 
Handle, fopen/fclose 


(参见 Opaque Pointer) 





Hard coding, 数组 应 用 实例 : 统 i 
Header File ， 头 文件 , 数学 函数 
Header Guard, 3c 
Heap, 虚拟 内 在 管理 
Helper Function, rZ 
Heredoc, Here Document, 
Hexadecimal, 进 制 过 人 
High-level Language, AIHE 
High-order Function, 回调 也 数 
Highlight ， 高 亮 显示 , 变量 
Histogram, 数组 应 用 实例 : 直方 医 
Hungarian notation, 标识 符 命 名 





























































Identifier, 变量 

IDE, Integrated Development Environment, 2 
用 Windows 学 C 语 言 不 好 吗 ? 

IEEE 1003.1, C 标 准 |/O 库 函数 与 Unbuffered 1/0% 



































(参见 POSIX.1) 


IEEE 754, 泽 点 数 
ILP32, 整 型 











































Immediate, 最 简单 的 j 
Immediate Mode, hu 
Imperative, [编程 语言 


Imperative Piogrdrminig, While 语句 


Implementation-defined, 整 型 
Implicit Conversion, 强制 类 型 车 
Implicit Declaration, E xe X pK 
Implicit Rule, 隐 含 规则 和 模式 规 见 
Implied, 浮 点 数 

Incremental, 增 量 式 开 发 , 归并 排 
Index, 数组 的 基本 操作 
Indexed Addressing Mode, 寻 址 方式 
Indirect Addressing Mode, 寻 址 方式 
Indirect Block, 数据 块 寻 址 
Indirection Operator, 指针 的 基本 操 
Infinite Loop, whilei#4] 
Infinite recursion, 31H 
Initialization, ， 初 始 化 , 赋值 
Initializer, 赋值 

Inline Assembly, C 内 联 站 5 
inline puru E 
inode, 总 

inode Bimap ， bit 
inode Table, 总 
Input, $A, f E 
Institute of Electrical and Electronics Engineers, i? ri 
Instruction Decouer i CPU 

Instruction Set ， 指 令 
Instruction, 指令 ， 
Integer Conversion Rank， Usual Arithmetic Conversion 
Integer Promotion, Integer Promotion 

Integer Type, 字符 类 型 与 字符 编码 

Interactive, Shell 的 历史 

Interface, 形 参 和 和 实 参 
Internal Linkage, 变量 多 
Internet Super-Server, KK 
Interpreter, ff 
Interpret, ， 解 释 , 程 
Interrupt, 设备 
Interrupt Handler, 设备 
Inverter, 为 什么 eap 

IPC, InterProcess Communication, 进程 间 通 信 
ISO 10646, Unicode 和 UTF-8 

ISO/IEC 9899:1990, 继续 Hello World 

ISO/IEC 9899:1999, 继续 Hello World 

Iteration, whilei&] 
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Job, Session 与 进程 组 
Job Control, Session 与 进程 组 
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k-th Order Statistic, 习题 
Key-value Pair, 本 童 综合 练习 





Keyword ， 关 键 字 , 变量 





(参见 Reserved Word, fi^) 
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Label, gotoi#4] 
Leap of Faith, 递归 
Lexical， 词 法 , 和 且 然 语言 和 形式 语言 



































LIFO, Last In First Out, HERE 



























































Linker, = WL 2 
Literal, FE, 自然 语言 和 形式 语言 
Little Endian, 目标 文件 



































Loader, 目标 文件 
Local Variable, ， 局 部 变量 ， 
Locality, Memory Hierarchy 

Logical AND, 布尔 代 闫 

Logical NOT, 布尔 代数 

Logical OR, 布尔 代数 

Loop Invariant, 插入 排序 

Loop Variable, whilei#4] 

Loop, (834, while 语 句 

Low Coupling, High Cohesion, FE ZI 
Low-level Language ， 低 级 语言 
LP64, 整 型 
LSB, Least Significant Bit, A Ehf 
lvalue ， 左 值 , 表达 式 












































































































































Mai neus me ó 


Mantissa, 722% 


(参见 Significand) 


Mask, 16 fi 

Mathematical Induction, 递归 
Member, 复合 数据 类 型 结构 体 
Memory, il 结构 基 丰 



























































(参见 CPU, Central Processing Unit， 中 央 处 理 器 ) 


Memory Hierarchy, Memory Hierarchy 

Memory Leak, malloc-Sfree 

Metaphor, kai, 自然 语言 和 形式 语言 

MMU, Memory Management Unit， 内 存 管 理 单元 , MMU 















































Mnemonic， 助 记 符 ， 
Modulo, if/elsei&&] 
MSB, Most Significant Bit, 
Multi- dimensional Array, 多 维 数组 
Multibyte Elsa ien ‘Linux C 编 和 






















































Native, 程 j 
Natural no ad 
Necessary Condition, 局 部 变量 
Nest, WE, 继续 Hello eer 

No Linkage, 变量 的 在 人 
Node, 不 完全 类 型 和 复 ET HH 

Non-printable Character, 字符 类 型 与 字符 编码 
Non-volatile Memory, Memory Hierarchy 
Nonblock I/O, open/close 

Normalize, 浮 点 数 
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Object File, f 
Object-like Macro, 函数 XI M 
Octal, A ENH Z [RIP 
Offset, LAE 7 FR iz VO ERR 
Old Style C, 继续 Hello World 
Opaque Pointer, fopen/fclose 
































(参见 Handle) 


Operand, ， 操 作 数 ， AAA 
Operating System, "E 
Operator, 355113, 表达 式 
Out-of-band, ioctl 
Output ， 输 出 , 程 
Overflow, 整数 也 
Override, {£2 
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Padding, 结构 体 和 联合 体 
Page Frame, Wiwi, MMU 
Page in, 虚拟 内 在 管理 
Page out, 虚拟 内 在 管理 
Page Table, MMU 
Page, W, MMU 
Paging, W, 虚拟 内 存 管理 
Parameter ， 形 参 , 形 参 和 实 参 
Parent Process, 引言 




















Parity, if/elsei&& 

Parity Check, 异 或 运算 的 一 些 特性 

Parse， 解 析 , 自然 语言 和 形式 语言 

Pattern, 引言 
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Pattern Rule, 


















































PA, Physical Address. 物 HU. MMU 


PCB, Process Control Block, CREIO Æ K% 


PC, Program Counter, CPU 


Ale, Ed, 


Placeholder. i5 t 


Plane, Unicode fllUTF-8 








Platform Independent, “FICK, 程 

















Pointer, 堆栈 
Poll, read/write 
Pop, 堆栈 
Portable, ， 可 移植 















































Position independent Code, 4 WE. 链接 











Positional Parameter, 位 置 参数 和 特殊 变量 
POSIX.1, C 标 准 VO 库 函数 与 Unbuffered 1/02% 


(参见 IEEE 1003.1) 


POSIX, Portable Operating System Interface, C CERÈI/O He PR 














Post-mortem Debug, 通过 终端 按键 7 
Postcondition, 折 半 查找 

Postfix Decrement Operator, for 语句 
Postfix Increment Operator, fori] 
Precondition , 折 半 查找 
Predecessor, 深度 优先 搜索 
Prededence, ， 优 先 级 , 表达 式 
Predicate, return 语 句 

Prefix Increment Operator, fori&] 
Preprocess, 数组 应 用 实 
Preprocessing Directive, Zi? 
Prerequisite, 基本 规 见 
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:统计 随机 净 






Primitive Type, 复合 数据 类 型 一 一 结构 体 














Privileged Mode, MMU 
Procedure Abstraction, 
Process, 设备 
Process Descriptor, C#pi#l/O Je rž 
Process Group, Session-z it f£ 


^e A 

















Process Group Leader, Session iH% 





Program Header Table, 目标 文件 
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与 Unbuffered I/O% 














Programming Language, 编程 语言 
Program ， 程 序 , 程 SIBI 
Prototype, É - Y PRAY 

Pseudo TTY, 网 络 过 各 
Pseudo- ue ee 最 简单 的 汇编 程 















































(参见 Assembler Directive) 














PTY Master, 
PTY Slave, 
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+ Unbuffered I/O rž 
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Push, 堆栈 





























Quadratic Function, £3: AES] [ale Ze HE] 
Quantifier, 5| & 





R 
Race Condition, z2z5:4& (¢-Ssigsuspend rk Zi 
Radix, 浮 点 数 


Random Access Memory, Memory Hierarchy 
Rationale, 形 参 和 实 参 

Recurrence, 归并 排序 

Recursive, 递归 
Redundancy, Jt, 自然 语言 和 形式 语言 

Redundant Array of Independent Disks ， 独 立 磁 盘 元 余 阵 列 , 习题 
Reference, 指针 的 基本 操 

Reference Count, 内 核 数据 结构 

Register, CPU 

Register Addressing Mode, 寻 址 方式 

Regular Expression, 引言 

Regular File, stdin/stdout/stderr 

Relational Operator, jf 语句 

Release, 折 半 查找 
Relocatable, ELF 文 件 
Remainder, if/elsei#4] 


Reserved Word, ， 保 留 字 , 变量 






















































































(参见 Keyword ， 关 键 字 ) 


Resource Limit, 引言 

Return Value， 返 回 值 , Be pK ZA 

Reuse, 增 量 式 开发 

Ripple Carry Adder, 为 什么 计生 uer 
Row-major, 多 维 数 组 

Rule, 基本 规 见 

Rule of Least Surprise, 形 参 和 实 人参 

Run-time, ， 运 行 时 , 程序 的 调试 

Running, read/write 


rvalue ， 右 值 , 表达 式 


(参见 Value, 值 










































































~~ 























S 

Scaffold, 
Scalar Type, % 
Scientific a 浮 点 数 
Scope, 变量 比 






Script, Shell 的 历 出 


Section, 最 简单 的 汇编 程序 
Section Header Table, 目标 文件 
Sector, 实例 剖析 

sed, Stream Editor, sed 

Seed, 数组 应 用 实例 : 直方 图 
Segment, 有 目标 文件 
Selection Statement, jf 语句 
Semantic， 语 义 , 自然 语言 和 形式 语言 
Semaphore, Tea 

Sentinel, bi Efl Steere 

Sequence =i Side Effect 与 Sequence Point 
Session, Session 与 进程 组 
Session Leader, Session E itfz£ 
Shared Object, ELF X f/E 
Short-circuit, Side Effect Sequence Point 
Side Effect, Žr p ZA 
Sign and Magnitude, 
Sign Bit, st a A 
Sign Extension, Zt: H2 
Signal Mask, 信号 在 内 核 中 的 表示 
Signed Number, 整数 的 加 减 3 
Significand, 浮 点 数 


(参见 Mantissa) 

























































































































































Single Linked List, 单 链表 

Single Pass, 数组 应 用 实例 : 直方 图 
Sleep, read/write 

Slot, KEK 

Source Code, ， 源 代码 ， 
Special Case, 单 链 表 

Special-purpose Register, CPU 

SRAM, Static RAM, Memory Hierarchy 
Stack, 递归 
Stack Frame, 递归 
Standalone, W2 5> 
Standard Error, stdin/stdout/stderr 
Standard Input, stdin/stdout/stderr 
Standard Output, stdin/stdout/stderr 
Startup Routine, main KAH E a PEE 
Statement Block, i fee ] 

Statement, iff, 
Static Storage Duration, 225% 
Stem, 隐 售 规划 和 模式 规 见 

Storage Class Specifier, 变量 的 存储 
Storage Duration, or Lifetime, 变量 比 
Stream, EAE T 为 单位 NOR 
String Literal, 继续 Hello World 
Structure, 自然 语言 和 形式 语言 
Substring, 字符 串 
Successor, 深度 优先 搜索 


Sufficient Condition, Jai 



















































































































PERILA 


Super Block, 总 体 存储 布局 

Surrogate Pair, Unicode 和 UTF-8 

SUS, Single UNIX Specification, C#nv##I/O E Kžt Unbuffered I/O rK Zi 
Swap Device, 交换 设备 ， 虚拟 内 存 管理 

Symbol, if = 
Synchronous, MMU 

Syntax, 1874, 目 然 语言 和 形式 语言 
System Call, zx Ty j 
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Target, 基本 规 见 


Terminal, stdin/stdout/stderr 




















Ternary Operator, 条 件 运 算 符 

Text File, 文件 的 3 an 

The Open Group, CẸREÈIO eK Unbuffered I/O %% 
Tight Loop, read/write 

Timing, 竞 态 条 件 与 sigsuspend 函 数 

Token, 和 且 然 语言 和 形式 语言 

Translation Unit, 变量 的 存储 

Traversal, 数组 的 基本 操 作 

Trigraph, zit 

True, i44] 

Truncate, 表达 式 , fopen/fclose, open/close 

Truth Table, ĦAX, 布尔 代数 

Type Cast, 强制 类 型 
Type Qualifier, 变量 所 
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UCS-2, Unicode 和 UTF-8 

UCS-4, Unicode 和 UTF-8 

UCS, Universal Character Set, Unicode 和 UTF-8 
Unary Operator, AISA, 布尔 代数 

Unbound Pointer, 指针 的 基本 操 

Unbuffered I/O, CAnvel/O Fé K Zi Unbuffered VO rK 
Undefined, returni&&], 整 型 
Unicode, Unicode 和 UTF-8 
Unicode Transformation Format， Unicode LUTE 8 
Uniform Distribution, 数组 应 用 实 
Unsigned Numer, BRATH 
Unspecified, 整 型 
Upper Bound, 算法 的 时 间 复 杂 度 分 

User Mode, MMU. 

Usual Arithmetic Conversion, Usual Arithmetic Conversion 
UTC, Coordinated Universal Time, 本 童 综合 练习 
UTF-16, Unicode 和 UTF-8 

UTF-32, Unicode 和 UTF-8 

UTF-8, Unicode 和 UTF-8 






































































































V 


Value-result, f£ A. 参数 与 传 出 参数 


Value， 值 


(参见 rvalue, 41H) 

















H, 变量 

















Variable Argument, 形 参 和 实 人参 


Variable, 


E —5 dA 
变量 , 变量 





VA, Virtual Address， 虚 拟 地 址 , MMU 

VFS, Virtual Filesystem, VES 

emory Management， 虚 拟 内 存 管 理 , MMU 
过 程 


Virtual M 


Virtual Terminal, 终端 登 ; 
VLA, Variable Length Array, Z : 
Volatile Memory, Memory Hierarchy 
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Von Neumann Architecture, 计算 机 体系 结构 基础 
W 
Watchpoint, 观察 点 


Whitespace， 





字符 类 型 与 字符 编码 




















Wide Character, 在 Linux C 编 程 中 使 用 Unicode 和 UTF-8 

































































Wildcard, 文件 名 代 Globbin 2*2 
Wire, 为 什么 I — dtl 

Word, CPU 

Worst Case, 算法 的 时 间 复 杂 度 分 

X 


XOR, eXclusive OR, Z E 
XSI, X/Open System Interface, Cin i#:1/O JÆ rR E 
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Zeroth, 数组 的 基本 操作 
Zombie, wait#waitpid rk 2% 
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